Телеграмм чат группы natural_language_processing страница 847

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

2106 membersпожаловаться на группу

2020 September 26

L

Lpskn in Natural Language Processing

Добрый вечер!
Подскажите, пожалуйста, есть ли библиотека для определения фразеологизмов в русском тексте?
Или как это в принципе можно реализовать, если имеется список часто употребляемых фразеологизмов?

источник

01:01пожаловаться #1

AK

Alexander Kukushkin in Natural Language Processing

Запись доклада про проект Natasha на Datafest
https://www.youtube.com/watch?v=-7XT_U6hVvk

Проект Natasha — набор открытых инструментов для русского языка, упор на практичность: компактные модели, быстро работает на CPU.

Yargy-парсер — замена для Томита-парсера, удобный Python-интерфейс, нормальная документация.

Natasha — библиотека-комбайн, тонкая обёртка над другими технологиями проекта, интерфейс похож на Spacy, нужна для демонстрации, не надо скачивать модели, настраивать.

Razdel — сегментация на слова и предложения, движок на правилах, быстро работает, топовое качество на новостях и худлите.

Slovnet — аналог Deeppavlov, NER на 1 проц пункт хуже SOTA Deeppavlov BERT NER, размер модели в 75 раз меньше (30МБ), быстро работает на CPU, аналогичные модели для морфологии и синтаксиса. В докладе подробнее про устройство решения, суть в дистилляции.

Navec — аналог RusVectores, размер архива в 5 раз меньше (50МБ), размер словаря в 2 раза больше (500К), вместо пар "слово_POS-тег" просто "слово". В докладе подробнее про устройство, суть в квантизации.

Naeval — сравнение открытых решений для русского: качество, размер модели, производительность. ~30 решений в Docker-контейнерах с веб-интерфейсом: Deeppavlov, Spacy, Stanza, Pullenti, Texterra, Tomita.

Corus — ~70 источников с датасетами для русского, ~30 с функциями-загрузчиками на Python: Taiga, Omnia Russica (Taiga 2.0), UD.

Все ссылки на https://natasha.github.io/ или https://github.com/natasha
#natasha

NLP in Industry: Natasha Project by Alexander Kukushkin

источник

05:52пожаловаться #2

VM

Valentin Malykh in Natural Language Processing

И ещё вопрос, практика будет? Разбор задач, где можно будет задавать вопросы

будут семинары, их можно будет делать, задавать вопросы

источник

07:30пожаловаться #3

BS

Bogdan Salyp in Natural Language Processing

Ребят, был у кого-нибудь опыт создания и дообучения seq2seq на русском?
Мне в этом чате советовали несколько способов, остановился на Simpletransformers Seq2Seq, encoder decoder поставил оба DeepPavlov/rubert-base-cased (увы, encoder инициализируется нулями при таком подходе и учится видимо заново)

Хотел узнать, какие есть правильные практики, может такой подход хуже BertForNextSentencePrediction, или мне стоило как-то прокинуть эмбеддинги/токенайзер в модель
Заранее спасибо)

источник

10:21пожаловаться #4

DB

Debjyoti Banerjee in Natural Language Processing

I have a task like I have many documents, and I have set of questions whose answers are there in the documents, so my question is which model would be best to answer those questions from the documents with high accuracy

источник

10:58пожаловаться #5

DB

Debjyoti Banerjee in Natural Language Processing

The answers are not direct, the model should understand the context of the question and should tries to find answer in the document

источник

10:59пожаловаться #6

DB

Debjyoti Banerjee in Natural Language Processing

We are currently using Allen NLP, but accuracy is not that good, for some of the questions it is returning very different answer

источник

10:59пожаловаться #7

V

Vic in Natural Language Processing

для этого есть Spacy-RU

Мм, а где? помню были тут разговоры о русских моделях в спэйси, но чтобы работало прям такого не было

источник

14:31пожаловаться #8

VR

Vladimir R in Natural Language Processing

Мм, а где? помню были тут разговоры о русских моделях в спэйси, но чтобы работало прям такого не было

https://github.com/buriy/spacy-ru

buriy/spacy-ru

Russian language models for spaCy. Contribute to buriy/spacy-ru development by creating an account on GitHub.

источник

14:31пожаловаться #9

V

Vic in Natural Language Processing

https://github.com/buriy/spacy-ru

buriy/spacy-ru

Russian language models for spaCy. Contribute to buriy/spacy-ru development by creating an account on GitHub.

да, вот с этим и были проблемы

источник

14:33пожаловаться #10

VR

Vladimir R in Natural Language Processing

напиши какие

источник

14:33пожаловаться #11

SP

Sebastian Pereira in Natural Language Processing

Ребят, был у кого-нибудь опыт создания и дообучения seq2seq на русском?
Мне в этом чате советовали несколько способов, остановился на Simpletransformers Seq2Seq, encoder decoder поставил оба DeepPavlov/rubert-base-cased (увы, encoder инициализируется нулями при таком подходе и учится видимо заново)

Хотел узнать, какие есть правильные практики, может такой подход хуже BertForNextSentencePrediction, или мне стоило как-то прокинуть эмбеддинги/токенайзер в модель
Заранее спасибо)

А какие задачи решаются?

источник

14:43пожаловаться #12

BS

Bogdan Salyp in Natural Language Processing

Sebastian Pereira

А какие задачи решаются?

Кастомный датасет из двух колонок с текстом порядка 10е7 строк, надо обучить seq2seq модель
Например, есть данные типа "обычное предложение" -> "агрессивно написанное предложение", сделать модель, которая будет предложения агрессивно переписывать)
Style transfer текста короче

источник

14:52пожаловаться #13

BS

Bogdan Salyp in Natural Language Processing

Пока что (как написал выше) simpletransformers seq2seq на bert с диппавлова
Обучается десятки часов на V100, результат пока что не очень
Меня просто смущает, что использую bert в несвойственной ему задаче
Но bart/t5 (которые как раз на seq2seq) не нашёл предобученных на русском

источник

14:54пожаловаться #14

SP

Sebastian Pereira in Natural Language Processing

Пока что (как написал выше) simpletransformers seq2seq на bert с диппавлова
Обучается десятки часов на V100, результат пока что не очень
Меня просто смущает, что использую bert в несвойственной ему задаче
Но bart/t5 (которые как раз на seq2seq) не нашёл предобученных на русском

Есть такое, в теории t5 можно обучить с тем же simpletransformers но это потребует таких вычислительных мощностей, что задача считай невыполнима.

источник

15:01пожаловаться #15

BS

Bogdan Salyp in Natural Language Processing

Вот именно, не хочется модель учить с нуля
Поэтому пытаюсь использовать диппавлов как могу
Думал, что типовая задача, но оказывается удобного решения на русском нет

источник

15:02пожаловаться #16

SP

Sebastian Pereira in Natural Language Processing

Мы похожую задачу (формальный текст —> суммаризация -> plain English ) пытались с генеративными грамматиками решить а не seq2seq и подзастряли.

источник

15:04пожаловаться #17

BS

Bogdan Salyp in Natural Language Processing

В english есть куча предобученных bart

источник

15:15пожаловаться #18

BS

Bogdan Salyp in Natural Language Processing

Я попробую потом на английском и отпишу
Часов десять ещё будет обучаться версия на русском)

источник

15:16пожаловаться #19

E

Elena in Natural Language Processing

Ребят, был у кого-нибудь опыт создания и дообучения seq2seq на русском?
Мне в этом чате советовали несколько способов, остановился на Simpletransformers Seq2Seq, encoder decoder поставил оба DeepPavlov/rubert-base-cased (увы, encoder инициализируется нулями при таком подходе и учится видимо заново)

Хотел узнать, какие есть правильные практики, может такой подход хуже BertForNextSentencePrediction, или мне стоило как-то прокинуть эмбеддинги/токенайзер в модель
Заранее спасибо)

Я сейчас пытаюст сделать fine tuning английского bart на баскском датасете для суммаризации. Получается не очень. Вместо абстрактной суммаризации модель просто выдает две-три фразы из того же текста, бывает, пару слов меняет. И все.

источник

16:35пожаловаться #20