Size: a a a

Natural Language Processing

2020 August 23

AL

Anton Lozhkov in Natural Language Processing
Alexander Kukushkin
Nerus — большой синтетический русскоязычный датасет
https://natasha.github.io/nerus

Месяц назад был пост про компактный NER из проекта Natasha https://natasha.github.io/ner. Получилось сжать модель в 75 раз, проиграть 1 процентный пункт SOTA BERT от DeepPavlov. Главный ингредиент там огромный синтетический датасет. Компактные модели начинают нормально работать только если обучить их на сотнях тысяч примеров. Мы публикуем архив в репозитории Nerus https://github.com/natasha/nerus, чтобы другие исследователи могли повторить и улучшить наше решении. Про качество разметки и Python-интерфейс в https://natasha.github.io/nerus.

В https://github.com/buriy/spacy-ru на Nerus обучают качественные русские модели для SpaCy, вроде бы получается даже лучше чем в Natasha.
стоит еще упомянуть что где-то 3.5% синтаксических деревьев содержат циклы или больше одного root-а, поэтому могут озадачить парсеры conllu
источник

AL

Anton Lozhkov in Natural Language Processing
ну и морфологию надо дополнительно повалидировать, чтобы согласовать с синтаксисом :)
источник

DK

Denis Kirjanov in Natural Language Processing
Anton Lozhkov
стоит еще упомянуть что где-то 3.5% синтаксических деревьев содержат циклы или больше одного root-а, поэтому могут озадачить парсеры conllu
Это где такие деревья?) в нерусе?
источник

AL

Anton Lozhkov in Natural Language Processing
Denis Kirjanov
Это где такие деревья?) в нерусе?
ага
источник

AL

Anton Lozhkov in Natural Language Processing
ну на то он и серебряный корпус
источник

AK

Alexander Kukushkin in Natural Language Processing
Anton Lozhkov
стоит еще упомянуть что где-то 3.5% синтаксических деревьев содержат циклы или больше одного root-а, поэтому могут озадачить парсеры conllu
Угу, надо добавить
источник

AK

Alexander Kukushkin in Natural Language Processing
Anton Lozhkov
ну и морфологию надо дополнительно повалидировать, чтобы согласовать с синтаксисом :)
Это как?
источник

AL

Anton Lozhkov in Natural Language Processing
Alexander Kukushkin
Это как?
Например PUNCT-punct, ADV-advmod, DET-det
источник

AL

Anton Lozhkov in Natural Language Processing
Вот этим скриптом можно все баги поймать https://github.com/UniversalDependencies/tools/blob/master/validate.py
источник

AK

Alexander Kukushkin in Natural Language Processing
А да хорошая идея
источник

AW

Alex Wortega in Natural Language Processing
Коллеги, а как вы вытаскиваете стоп слова? Я пока дошел только до того что выкинул часть из самых популярных слов которые посчитал не несущими контентекстного смысла.
источник

AS

Alex Surname in Natural Language Processing
Alex Wortega
Коллеги, а как вы вытаскиваете стоп слова? Я пока дошел только до того что выкинул часть из самых популярных слов которые посчитал не несущими контентекстного смысла.
предварительно заданым списком
источник

AW

Alex Wortega in Natural Language Processing
Alex Surname
предварительно заданым списком
Это понятно
источник

AW

Alex Wortega in Natural Language Processing
Но вы его как до дополняете?
источник

AS

Alex Surname in Natural Language Processing
ну я для английского вырезал все что меньше 3 букв
источник

DD

David Dale in Natural Language Processing
Alex Wortega
Коллеги, а как вы вытаскиваете стоп слова? Я пока дошел только до того что выкинул часть из самых популярных слов которые посчитал не несущими контентекстного смысла.
Крутые пацаны не вытаскивают стоп слова самостоятельно, а дают своим моделям выучить для них ничтожно маленькие веса.
источник

AW

Alex Wortega in Natural Language Processing
David Dale
Крутые пацаны не вытаскивают стоп слова самостоятельно, а дают своим моделям выучить для них ничтожно маленькие веса.
Соре я обучаю на ноуте
источник

AW

Alex Wortega in Natural Language Processing
Dl для слабаков. Только мл только хардкор
источник
2020 August 24

DD

David Dale in Natural Language Processing
Alex Wortega
Соре я обучаю на ноуте
К логрегу моё высказывание тоже относится)
источник

AW

Alex Wortega in Natural Language Processing
)
источник