Запись доклада про проект Natasha на Datafesthttps://www.youtube.com/watch?v=-7XT_U6hVvkПроект Natasha — набор открытых инструментов для русского языка, упор на практичность: компактные модели, быстро работает на CPU.
Yargy-парсер — замена для Томита-парсера, удобный Python-интерфейс, нормальная документация.
Natasha — библиотека-комбайн, тонкая обёртка над другими технологиями проекта, интерфейс похож на Spacy, нужна для демонстрации, не надо скачивать модели, настраивать.
Razdel — сегментация на слова и предложения, движок на правилах, быстро работает, топовое качество на новостях и худлите.
Slovnet — аналог Deeppavlov, NER на 1 проц пункт хуже SOTA Deeppavlov BERT NER, размер модели в 75 раз меньше (30МБ), быстро работает на CPU, аналогичные модели для морфологии и синтаксиса. В докладе подробнее про устройство решения, суть в дистилляции.
Navec — аналог RusVectores, размер архива в 5 раз меньше (50МБ), размер словаря в 2 раза больше (500К), вместо пар "слово_POS-тег" просто "слово". В докладе подробнее про устройство, суть в квантизации.
Naeval — сравнение открытых решений для русского: качество, размер модели, производительность. ~30 решений в Docker-контейнерах с веб-интерфейсом: Deeppavlov, Spacy, Stanza, Pullenti, Texterra, Tomita.
Corus — ~70 источников с датасетами для русского, ~30 с функциями-загрузчиками на Python: Taiga, Omnia Russica (Taiga 2.0), UD.
Все ссылки на
https://natasha.github.io/ или
https://github.com/natasha#natasha