Size: a a a

Natural Language Processing

2020 September 26

L

Lpskn in Natural Language Processing
Добрый вечер!
Подскажите, пожалуйста, есть ли библиотека для определения фразеологизмов в русском тексте?
Или как это в принципе можно реализовать, если имеется список часто употребляемых фразеологизмов?
источник

AK

Alexander Kukushkin in Natural Language Processing
Запись доклада про проект Natasha на Datafest
https://www.youtube.com/watch?v=-7XT_U6hVvk

Проект Natasha — набор открытых инструментов для русского языка, упор на практичность: компактные модели, быстро работает на CPU.

Yargy-парсер — замена для Томита-парсера, удобный Python-интерфейс, нормальная документация.

Natasha — библиотека-комбайн, тонкая обёртка над другими технологиями проекта, интерфейс похож на Spacy, нужна для демонстрации, не надо скачивать модели, настраивать.

Razdel — сегментация на слова и предложения, движок на правилах, быстро работает, топовое качество на новостях и худлите.

Slovnet — аналог Deeppavlov, NER на 1 проц пункт хуже SOTA Deeppavlov BERT NER, размер модели в 75 раз меньше (30МБ), быстро работает на CPU, аналогичные модели для морфологии и синтаксиса. В докладе подробнее про устройство решения, суть в дистилляции.

Navec — аналог RusVectores, размер архива в 5 раз меньше (50МБ), размер словаря в 2 раза больше (500К), вместо пар "слово_POS-тег" просто "слово". В докладе подробнее про устройство, суть в квантизации.

Naeval — сравнение открытых решений для русского: качество, размер модели, производительность. ~30 решений в Docker-контейнерах с веб-интерфейсом: Deeppavlov, Spacy, Stanza, Pullenti, Texterra, Tomita.

Corus — ~70 источников с датасетами для русского, ~30 с функциями-загрузчиками на Python: Taiga, Omnia Russica (Taiga 2.0), UD.

Все ссылки на https://natasha.github.io/ или https://github.com/natasha
#natasha
источник

VM

Valentin Malykh in Natural Language Processing
Alexander
И ещё вопрос, практика будет? Разбор задач, где можно будет задавать вопросы
будут семинары, их можно будет делать, задавать вопросы
источник

BS

Bogdan Salyp in Natural Language Processing
Ребят, был у кого-нибудь опыт создания и дообучения seq2seq на русском?
Мне в этом чате советовали несколько способов, остановился на Simpletransformers Seq2Seq, encoder decoder поставил оба DeepPavlov/rubert-base-cased (увы, encoder инициализируется нулями при таком подходе и учится видимо заново)

Хотел узнать, какие есть правильные практики, может такой подход хуже BertForNextSentencePrediction, или мне стоило как-то прокинуть эмбеддинги/токенайзер в модель
Заранее спасибо)
источник

DB

Debjyoti Banerjee in Natural Language Processing
I have a task like I have many documents, and I have set of  questions whose answers are there in the documents, so my question is which model would be best to answer those questions from the documents with high accuracy
источник

DB

Debjyoti Banerjee in Natural Language Processing
The answers are not direct, the model should understand the context of the question and should tries to find answer in the document
источник

DB

Debjyoti Banerjee in Natural Language Processing
We are currently using Allen NLP, but accuracy is not that good, for some of the questions it is returning very different answer
источник

V

Vic in Natural Language Processing
Vladimir R
для этого есть Spacy-RU
Мм, а где? помню были тут разговоры о русских моделях в спэйси, но чтобы работало прям такого не было
источник

VR

Vladimir R in Natural Language Processing
Vic
Мм, а где? помню были тут разговоры о русских моделях в спэйси, но чтобы работало прям такого не было
источник

V

Vic in Natural Language Processing
да, вот с этим и были проблемы
источник

VR

Vladimir R in Natural Language Processing
напиши какие
источник

SP

Sebastian Pereira in Natural Language Processing
Bogdan Salyp
Ребят, был у кого-нибудь опыт создания и дообучения seq2seq на русском?
Мне в этом чате советовали несколько способов, остановился на Simpletransformers Seq2Seq, encoder decoder поставил оба DeepPavlov/rubert-base-cased (увы, encoder инициализируется нулями при таком подходе и учится видимо заново)

Хотел узнать, какие есть правильные практики, может такой подход хуже BertForNextSentencePrediction, или мне стоило как-то прокинуть эмбеддинги/токенайзер в модель
Заранее спасибо)
А какие задачи решаются?
источник

BS

Bogdan Salyp in Natural Language Processing
Sebastian Pereira
А какие задачи решаются?
Кастомный датасет из двух колонок с текстом порядка 10е7 строк, надо обучить seq2seq модель
Например, есть данные типа "обычное предложение" -> "агрессивно написанное предложение", сделать модель, которая будет предложения агрессивно переписывать)
Style transfer текста короче
источник

BS

Bogdan Salyp in Natural Language Processing
Пока что (как написал выше) simpletransformers seq2seq на bert с диппавлова
Обучается десятки часов на V100, результат пока что не очень
Меня просто смущает, что использую bert в несвойственной ему задаче
Но bart/t5 (которые как раз на seq2seq) не нашёл предобученных на русском
источник

SP

Sebastian Pereira in Natural Language Processing
Bogdan Salyp
Пока что (как написал выше) simpletransformers seq2seq на bert с диппавлова
Обучается десятки часов на V100, результат пока что не очень
Меня просто смущает, что использую bert в несвойственной ему задаче
Но bart/t5 (которые как раз на seq2seq) не нашёл предобученных на русском
Есть такое, в теории t5 можно обучить с тем же simpletransformers но это потребует таких вычислительных мощностей, что задача считай невыполнима.
источник

BS

Bogdan Salyp in Natural Language Processing
Вот именно, не хочется модель учить с нуля
Поэтому пытаюсь использовать диппавлов как могу
Думал, что типовая задача, но оказывается удобного решения на русском нет
источник

SP

Sebastian Pereira in Natural Language Processing
Мы похожую задачу (формальный текст —> суммаризация -> plain English ) пытались с генеративными грамматиками решить а не seq2seq и подзастряли.
источник

BS

Bogdan Salyp in Natural Language Processing
В english есть куча предобученных bart
источник

BS

Bogdan Salyp in Natural Language Processing
Я попробую потом на английском и отпишу
Часов десять ещё будет обучаться версия на русском)
источник

E

Elena in Natural Language Processing
Bogdan Salyp
Ребят, был у кого-нибудь опыт создания и дообучения seq2seq на русском?
Мне в этом чате советовали несколько способов, остановился на Simpletransformers Seq2Seq, encoder decoder поставил оба DeepPavlov/rubert-base-cased (увы, encoder инициализируется нулями при таком подходе и учится видимо заново)

Хотел узнать, какие есть правильные практики, может такой подход хуже BertForNextSentencePrediction, или мне стоило как-то прокинуть эмбеддинги/токенайзер в модель
Заранее спасибо)
Я сейчас пытаюст сделать fine tuning английского bart на баскском датасете для суммаризации. Получается не очень. Вместо абстрактной суммаризации модель просто выдает две-три фразы из того же текста, бывает, пару слов меняет. И все.
источник