Naeval — количественное сравнение систем для русскоязычного NLPhttps://natasha.github.io/naevalВ этом чатике периодически ссылаются на бенчмарки Naeval
https://t.me/natural_language_processing/16034 https://t.me/natural_language_processing/17377Natasha — не научный проект, нет цели побить SOTA, но важно проверить качество на публичных бенчмарках, постараться занять высокое место, сильно не проиграв в производительности. Как делают в академии: измеряют качество, получают число, берут таблички из других статей, сравнивают эти числа со своими. У такой схемы есть две проблемы:
1. Забывают про производительность. Не сравнивают размер модели, скорость работы. Упор только на качество.
2. Не публикуют код. В расчёте метрики качества обычно миллион нюансов. Как именно считали в других статьях? Неизвестно.
Naeval — набор скриптов для оценки качества и производительности открытых решений для русскоязычного NLP. Сейчас покрыты 5 базовых задач, которые решает Natasha: сегментация, эмбединги, морфология, синтаксис, NER. Все инструменты завёрнуты в Docker-контейнеры с веб-интерфейсом, таблички с метриками считаются в Jupyter-скриптах. Про детали реализации на примере NER в статье
https://natasha.github.io/naeval