Size: a a a

Natural Language Processing

2020 September 24

YB

Yuri Baburov in Natural Language Processing
Можно нейронку построить, а датасет пробовать собирать как раз через поиск сокращённых слов и вариантов слов, нуждающихся в сокращении. Но много слов тогда найдется неправильных: для рис, в, г, см -- наиболее популярные слова будут наверное рисовать, вы, где, смотретб, или что-то подобное. То есть только одно слово совпадает. А для акронимов часто расшифровки есть только в словаре.
источник

AW

Alex Wortega in Natural Language Processing
Товарищи, а есть материалы по мутаторам текста?
источник

YB

Yuri Baburov in Natural Language Processing
Sergey Zhuravlev
То есть есть варианты кроме регулярных выражений как я понял?)
В общем, это сводится обычно к словарю + задаче WSD. Можно попробовать языковой моделью типа Берт найти варианты для датасета.
источник

SZ

Sergey Zhuravlev in Natural Language Processing
Спасибо за помощь!
источник

YB

Yuri Baburov in Natural Language Processing
А, ngram LM будет ещё иногда работать, а лучше конечно rnnlm/convlm . У неё спрашивать варианты исправления. С jamspell как я понял ту же самую идею предлагают: заменить "см." на "смххх" и смотреть предлагаемые исправления для этого слова. Плохо работать будет, потому что там edit distance учитывается. Лучше самому языковую модель брать и спрашивать популярные слова с такими вот соседними словами, и фильтровать слова на "см...".
источник

YB

Yuri Baburov in Natural Language Processing
Alex Wortega
Товарищи, а есть материалы по мутаторам текста?
На датафесте планируется доклад по библиотеке для text augmentation. В jamspell вроде бы какой-то есть. Ну и погуглить надо, должен быть миллион. Kw: Noisy channel model, text augmentation for nn, text mutation for nn
источник

V

Vlad in Natural Language Processing
Yuri Baburov
На датафесте планируется доклад по библиотеке для text augmentation. В jamspell вроде бы какой-то есть. Ну и погуглить надо, должен быть миллион. Kw: Noisy channel model, text augmentation for nn, text mutation for nn
Дата доклада будет известна позже? А то там просто запись и всё
источник

YB

Yuri Baburov in Natural Language Processing
Vlad
Дата доклада будет известна позже? А то там просто запись и всё
Да. В течение месяца будет. Можно попробовать нагуглить -- вдруг библиотека уже где-то лежит
источник

V

Vlad in Natural Language Processing
Yuri Baburov
Да. В течение месяца будет. Можно попробовать нагуглить -- вдруг библиотека уже где-то лежит
Спасибо!
источник
2020 September 25

VM

Valentin Malykh in Natural Language Processing
коллеги, мы все-таки делаем новый запуск нашего курса Natural Language Processing; курс в этот раз будет онлайн, занятия будут по Zoom; вести буду я, все материалы будут на английском, но сами занятия будут на русском; квизы и задания будут на Степике, приглашения на него разошлем всем, кто зарегистрируется в форме; первая лекция будет в 18:30 во вторник, 29 сентября; канал для общения по курсу будет ODS.ai #huawei_nlp_course

форма регистрации: https://forms.gle/EjLbmRjCyH6YEqNx8
источник

E

Elena in Natural Language Processing
платно или бесплатно?
источник

V

Vlad in Natural Language Processing
А есть ли хотя бы примерная программа курса?
источник

VM

Valentin Malykh in Natural Language Processing
Elena
платно или бесплатно?
бесплатно, конечно
источник

E

Elena in Natural Language Processing
спасибо, выглядит круто
источник

VM

Valentin Malykh in Natural Language Processing
Vlad
А есть ли хотя бы примерная программа курса?
Темы курса:


Базовые понятия NLP.
Базовые понятия машинного обучения. TF-IDF.
Векторные модели представления слов. Word2Vec. Сверточные нейронные сети.
Разметка последовательностей. CRF.
Рекуррентные нейронные сети.
Машинный перевод.
Модели на базе архитектуры Transformer. BERT.
Прикладные задачи NLP. Диалоговые системы.
Распознавание речи.
источник

VM

Valentin Malykh in Natural Language Processing
если нужна именно раскладка по занятиям, могу попозже выложить
источник

FF

Futorio Franklin in Natural Language Processing
Valentin Malykh
коллеги, мы все-таки делаем новый запуск нашего курса Natural Language Processing; курс в этот раз будет онлайн, занятия будут по Zoom; вести буду я, все материалы будут на английском, но сами занятия будут на русском; квизы и задания будут на Степике, приглашения на него разошлем всем, кто зарегистрируется в форме; первая лекция будет в 18:30 во вторник, 29 сентября; канал для общения по курсу будет ODS.ai #huawei_nlp_course

форма регистрации: https://forms.gle/EjLbmRjCyH6YEqNx8
Курс только для студентов?
источник

VM

Valentin Malykh in Natural Language Processing
курс открыт для всех, но по просьбе МФТИ в первую очередь ориентирован на студентов
источник

V

Vlad in Natural Language Processing
Valentin Malykh
Темы курса:


Базовые понятия NLP.
Базовые понятия машинного обучения. TF-IDF.
Векторные модели представления слов. Word2Vec. Сверточные нейронные сети.
Разметка последовательностей. CRF.
Рекуррентные нейронные сети.
Машинный перевод.
Модели на базе архитектуры Transformer. BERT.
Прикладные задачи NLP. Диалоговые системы.
Распознавание речи.
Спасибо, интересно)
источник

AW

Alex Wortega in Natural Language Processing
А кроме лента ру есть ещё хорошие новости по РФ? Максимально непредызятые и +- без ярко выраженной авторской лексики?
источник