Size: a a a

Natural Language Processing

2020 October 22

N

Natalia in Natural Language Processing
вот и всё
источник

V

Viacheslav in Natural Language Processing
Natalia
ну я немножко больше знаю об их внутренней кухне и финансировании, чем вы, но ну да, окей, всегда можно нежелание чем-нибудь объяснить. видимо, поддержка родного русского языка у нас на родине не в приоритетах
Я может неправильно выразился, суть в том что в некоторых двуязычных странах - можно получить грант на исследование национального языка при институте, так как он может считаться умирающим.
источник

N

Natalia in Natural Language Processing
просто в т.ч. для того, чтобы люди "без особых навыков" могли такую разметку брать не только у udpipe, где качество ниже, но и у deeppavlov
источник

YB

Yuri Baburov in Natural Language Processing
Natalia
исключительно при том, что а) лучшие модели вроде их модели, б) это могло бы быть прямо у них на сайте, а на левом ресурсе
(а) для POS и DEP это уже не совсем так, а совсем скоро будет совсем не так.
у них же при этом и самые сложные конфиги для того, чтобы это применить, поэтому разрыв между демкой и применением будет наиболее суровый.
поэтому такой красивый NER для них скорее "витрина для продажи", а не вещь для реального применения.
источник

N

Natalia in Natural Language Processing
ну окей, тут понимаю (потому и ручками поднять именно их модель тоже не самая лёгкая задача и очевиднее было бы просить помощи изнутри)
источник

N

Natalia in Natural Language Processing
а про POS и DEP какая-то внутренняя инфа?
источник

YB

Yuri Baburov in Natural Language Processing
Natalia
ну окей, тут понимаю (потому и ручками поднять именно их модель тоже не самая лёгкая задача и очевиднее было бы просить помощи изнутри)
в naeval есть docker для 5-10 разных моделей для каждого из {POS, DEP, NER}.
источник

N

Natalia in Natural Language Processing
спасибо
источник

N

Natalia in Natural Language Processing
ну да, похоже, natasha вырывается вперёд в плане вообще и дружелюбности к юзеру (мануалы-посты и вообще куча всего разного)
источник

YB

Yuri Baburov in Natural Language Processing
Natalia
а про POS и DEP какая-то внутренняя инфа?
да. скоро релиз spacy 3.0 с трансформерами из коробки, вместо некоторых танцев с бубном. и простые конфиги придут, а от меня — скрипты для тренировки и сама тренировка.
Ну и SlovNetBert, который запускается в 5 строчек, тоже лучше моделей DeepPavlov для POS и DEP.
источник

MF

M F in Natural Language Processing
Natalia
да, спасибо, я уже поняла. мб ещё лингвистов из Вышки спрошу, а то они как-то умудряются малыми силами и ресурсами делать супердофига всего интересного, а я тут просто ничего не понимаю
В ссылках, которые присылала вам днём, были как раз проекты лингвистов из вышки.  Дополнение к аннотатриксу с авторазметкой и ru-syntax.

Других проектов с авторазметкой ud в вышке вроде как не было.

Когда-то они были на вышкинских серверах, потом сервера упали и не поднялись.
Дело за малым, найти разраба который сможет вам любой из этих тулов на вашем сервере развернуть, если у вас какая-то из реальной жизни задача.
источник

N

Natalia in Natural Language Processing
Yuri Baburov
да. скоро релиз spacy 3.0 с трансформерами из коробки, вместо некоторых танцев с бубном. и простые конфиги придут, а от меня — скрипты для тренировки и сама тренировка.
Ну и SlovNetBert, который запускается в 5 строчек, тоже лучше моделей DeepPavlov для POS и DEP.
окей, тогда я, возможно, просто плохо смотрела качество моделей за последние полгода

для spacy то есть будет крутая русская модель (вроде какое-то время назад толком ничего не было)? это гуд
источник

N

Natalia in Natural Language Processing
кстати, а под POS подразумевается UPOS или XPOS скорее?
источник

YB

Yuri Baburov in Natural Language Processing
Natalia
окей, тогда я, возможно, просто плохо смотрела качество моделей за последние полгода

для spacy то есть будет крутая русская модель (вроде какое-то время назад толком ничего не было)? это гуд
я релизю сейчас модели для spacy 2.3, которые в 10 раз быстрее DeepPavlov на CPU и при этом сравнимы с ним по качеству.
а в 3.0 будет два варианта моделей: модели с трансформером и эти же модели пойдут без трансформера.
источник

YB

Yuri Baburov in Natural Language Processing
Natalia
кстати, а под POS подразумевается UPOS или XPOS скорее?
в CONLLU в 4й колонке стоит UPOS, такой разметки много. а русской разметки с XPOS, которая в 5й колонке, почти нигде и нет. соответственно, натренировать можно, но качество будет ужасным
источник

N

Natalia in Natural Language Processing
Yuri Baburov
в CONLLU в 4й колонке стоит UPOS, такой разметки много. а русской разметки с XPOS, которая в 5й колонке, почти нигде и нет. соответственно, натренировать можно, но качество будет ужасным
а, ну качество FEATS/xpos интересно, конечно
источник

N

Natalia in Natural Language Processing
"мелкой" морфологии
источник

YB

Yuri Baburov in Natural Language Processing
Natalia
а, ну качество FEATS/xpos интересно, конечно
для FEATS нормальных русских бенчмарков пока нету, их никто не поддерживает.
для XPOS разметка в *grameval есть только для сабсета Wiki ( https://raw.githubusercontent.com/dialogue-evaluation/GramEval2020/master/dataTrain/GramEval2020-GSD-train.conllu )
источник

N

Natalia in Natural Language Processing
ясненько! просто как минимум у UDPipe качество по всем колонкам вроде посчитано
источник

SP

Sebastian Pereira in Natural Language Processing
Yuri Baburov
(а) для POS и DEP это уже не совсем так, а совсем скоро будет совсем не так.
у них же при этом и самые сложные конфиги для того, чтобы это применить, поэтому разрыв между демкой и применением будет наиболее суровый.
поэтому такой красивый NER для них скорее "витрина для продажи", а не вещь для реального применения.
++ про конфиг, суровые разрабы из МФТИ никого не жалеют
источник