Size: a a a

Natural Language Processing

2020 August 26

I9

Ivan 9kin in Natural Language Processing
по 30
источник

YB

Yuri Baburov in Natural Language Processing
понятно, самое хреновое количество.
в общем, посмотри на https://github.com/buriy/nlp_workshop или любые другие материалы по классификации, попробуй у себя что-нибудь такое сделать.
источник

I9

Ivan 9kin in Natural Language Processing
И насколько это задача сложна? (Я в 10 класс перешёл)
источник

SP

Sebastian Pereira in Natural Language Processing
Ivan 9kin
И насколько это задача сложна? (Я в 10 класс перешёл)
Юрий ее уже решил за тебя. Подставь свои данные и посмотри результат.
источник

I9

Ivan 9kin in Natural Language Processing
спасибо вам огромное
источник

ДЛ

Дмитрий Лейкин... in Natural Language Processing
https://pymorphy2.readthedocs.io/en/latest/user/grammemes.html - тут нет обозначений времени. Как найти слова в прошедшем времени?
источник

FF

Futorio Franklin in Natural Language Processing
Дмитрий Лейкин
https://pymorphy2.readthedocs.io/en/latest/user/grammemes.html - тут нет обозначений времени. Как найти слова в прошедшем времени?
источник

FF

Futorio Franklin in Natural Language Processing
источник

ДЛ

Дмитрий Лейкин... in Natural Language Processing
rule(
   and_(
       gram('ADJF'),  # так помечается прилагательное, остальные пометки описаны в
                      # http://pymorphy2.readthedocs.io/en/latest/user/grammemes.html
       is_capitalized()
   ),


Какие обозначения для yargy?
источник

FF

Futorio Franklin in Natural Language Processing
Да
источник

ДЛ

Дмитрий Лейкин... in Natural Language Processing
and_(
       gram('past')

не работает.
источник

ДЛ

Дмитрий Лейкин... in Natural Language Processing
а, нет
источник

ДЛ

Дмитрий Лейкин... in Natural Language Processing
мой косяк
источник

ДЛ

Дмитрий Лейкин... in Natural Language Processing
Спасибо, работает!
источник

AK

Alexander Kukushkin in Natural Language Processing
Интересный стрим Татьяны Ландо https://youtu.be/ny3VDGNdlcY?t=111 про лингвистику, Гугл, их чат-бот ассистент и русский язык.
1. Они не используют логи чат-бота, чтобы улучшать ассистент. Чтобы лучше парсить фразы типа "поставь будильник на семь" не смотрят в логи как пользователи пытаются это сделать, а придумывают что-то из головы + как все остальные собирают из открытых источников. По-моему это скорее печально. Интересно как в Алисе, @cointegrated есть что-то публичное на тему?
2. У чат-ботов есть бесполезная часть про болталки и полезная про решение задач (тот же будильник). Сейчас отличный прогресс по болталкам, вспоминаем GPT, и непонятно что делать с решением задач. Похоже, Гугл сейчас как все строит решения на правилах, думает как бы сделать что-то unsupervised как с болталкой
источник

BS

Bogdan Salyp in Natural Language Processing
Всем привет) Перекатываюсь сейчас в nlp, если более конкретно, занимаюсь задачей извлечения контекста из предложений и статей, как на eng, так и на кириллице

По поводу бекграунда - конкретно по nlp ходил вживую на CS224n

Сюда можно вкидывать что-то интересное по теме на обсуждение?)
источник

AK

Alexander Kukushkin in Natural Language Processing
Bogdan Salyp
Всем привет) Перекатываюсь сейчас в nlp, если более конкретно, занимаюсь задачей извлечения контекста из предложений и статей, как на eng, так и на кириллице

По поводу бекграунда - конкретно по nlp ходил вживую на CS224n

Сюда можно вкидывать что-то интересное по теме на обсуждение?)
Ну конечно
источник

A

Anthony in Natural Language Processing
Ребят, а подскажите почему NamesExtractor может не находить имена? Вообще никакие. Natasha==0.10.0 стоит
источник

DD

David Dale in Natural Language Processing
Alexander Kukushkin
Интересный стрим Татьяны Ландо https://youtu.be/ny3VDGNdlcY?t=111 про лингвистику, Гугл, их чат-бот ассистент и русский язык.
1. Они не используют логи чат-бота, чтобы улучшать ассистент. Чтобы лучше парсить фразы типа "поставь будильник на семь" не смотрят в логи как пользователи пытаются это сделать, а придумывают что-то из головы + как все остальные собирают из открытых источников. По-моему это скорее печально. Интересно как в Алисе, @cointegrated есть что-то публичное на тему?
2. У чат-ботов есть бесполезная часть про болталки и полезная про решение задач (тот же будильник). Сейчас отличный прогресс по болталкам, вспоминаем GPT, и непонятно что делать с решением задач. Похоже, Гугл сейчас как все строит решения на правилах, думает как бы сделать что-то unsupervised как с болталкой
Про работу с логами в Алисе публичных докладов я не  помню, кроме короткого рассказа Саши Изосиной про разметку разговоров на Толоке.
Но вообще можно догадаться, что Яндекс в своих продуктах очень data-oriented, и Алиса с ног до головы обвешана разными метриками.
В целом, можно поковыряться в Толоке и найти задания и на транскрибацию аудио, и на классификацию интентов, и на разметку успешности/неуспешности выполнения задач.
источник

DD

David Dale in Natural Language Processing
Alexander Kukushkin
Интересный стрим Татьяны Ландо https://youtu.be/ny3VDGNdlcY?t=111 про лингвистику, Гугл, их чат-бот ассистент и русский язык.
1. Они не используют логи чат-бота, чтобы улучшать ассистент. Чтобы лучше парсить фразы типа "поставь будильник на семь" не смотрят в логи как пользователи пытаются это сделать, а придумывают что-то из головы + как все остальные собирают из открытых источников. По-моему это скорее печально. Интересно как в Алисе, @cointegrated есть что-то публичное на тему?
2. У чат-ботов есть бесполезная часть про болталки и полезная про решение задач (тот же будильник). Сейчас отличный прогресс по болталкам, вспоминаем GPT, и непонятно что делать с решением задач. Похоже, Гугл сейчас как все строит решения на правилах, думает как бы сделать что-то unsupervised как с болталкой
Что касается "полезной" (goal-oriented) части, Гугл в прошлом году организовывал в рамках dstc-8 дорожку "schema-guided dialogue state tracking", в результате которой должен был хороший few-shot learning получиться для разбора интентов и слотов - на основе схемы (aka правил) и небольшого количества размеченных примеров. Вроде бы даже что-то получилось)
И мне кажется, что примерно в этом направлении индустрия двигаться и будет. Но пока движется очень медленно, конечно.
источник