Телеграмм чат группы natural_language

вот и всё

22:19пожаловаться #1

V

Viacheslav in Natural Language Processing

Natalia

ну я немножко больше знаю об их внутренней кухне и финансировании, чем вы, но ну да, окей, всегда можно нежелание чем-нибудь объяснить. видимо, поддержка родного русского языка у нас на родине не в приоритетах

Я может неправильно выразился, суть в том что в некоторых двуязычных странах - можно получить грант на исследование национального языка при институте, так как он может считаться умирающим.

22:20пожаловаться #2

N

просто в т.ч. для того, чтобы люди "без особых навыков" могли такую разметку брать не только у udpipe, где качество ниже, но и у deeppavlov

22:20пожаловаться #3

YB

Natalia

исключительно при том, что а) лучшие модели вроде их модели, б) это могло бы быть прямо у них на сайте, а на левом ресурсе

(а) для POS и DEP это уже не совсем так, а совсем скоро будет совсем не так.
у них же при этом и самые сложные конфиги для того, чтобы это применить, поэтому разрыв между демкой и применением будет наиболее суровый.
поэтому такой красивый NER для них скорее "витрина для продажи", а не вещь для реального применения.

22:20пожаловаться #4

N

ну окей, тут понимаю (потому и ручками поднять именно их модель тоже не самая лёгкая задача и очевиднее было бы просить помощи изнутри)

22:22пожаловаться #5

N

а про POS и DEP какая-то внутренняя инфа?

22:22пожаловаться #6

YB

Natalia

ну окей, тут понимаю (потому и ручками поднять именно их модель тоже не самая лёгкая задача и очевиднее было бы просить помощи изнутри)

в naeval есть docker для 5-10 разных моделей для каждого из {POS, DEP, NER}.

22:22пожаловаться #7

N

спасибо

22:23пожаловаться #8

N

ну да, похоже, natasha вырывается вперёд в плане вообще и дружелюбности к юзеру (мануалы-посты и вообще куча всего разного)

22:24пожаловаться #9

YB

Natalia

а про POS и DEP какая-то внутренняя инфа?

да. скоро релиз spacy 3.0 с трансформерами из коробки, вместо некоторых танцев с бубном. и простые конфиги придут, а от меня — скрипты для тренировки и сама тренировка.
Ну и SlovNetBert, который запускается в 5 строчек, тоже лучше моделей DeepPavlov для POS и DEP.

22:24пожаловаться #10

MF

M F in Natural Language Processing

Natalia

да, спасибо, я уже поняла. мб ещё лингвистов из Вышки спрошу, а то они как-то умудряются малыми силами и ресурсами делать супердофига всего интересного, а я тут просто ничего не понимаю

В ссылках, которые присылала вам днём, были как раз проекты лингвистов из вышки. Дополнение к аннотатриксу с авторазметкой и ru-syntax.

Других проектов с авторазметкой ud в вышке вроде как не было.

Когда-то они были на вышкинских серверах, потом сервера упали и не поднялись.
Дело за малым, найти разраба который сможет вам любой из этих тулов на вашем сервере развернуть, если у вас какая-то из реальной жизни задача.

22:25пожаловаться #11

N

Yuri Baburov

да. скоро релиз spacy 3.0 с трансформерами из коробки, вместо некоторых танцев с бубном. и простые конфиги придут, а от меня — скрипты для тренировки и сама тренировка.
Ну и SlovNetBert, который запускается в 5 строчек, тоже лучше моделей DeepPavlov для POS и DEP.

окей, тогда я, возможно, просто плохо смотрела качество моделей за последние полгода

для spacy то есть будет крутая русская модель (вроде какое-то время назад толком ничего не было)? это гуд

22:26пожаловаться #12

N

кстати, а под POS подразумевается UPOS или XPOS скорее?

22:28пожаловаться #13

YB

Natalia

окей, тогда я, возможно, просто плохо смотрела качество моделей за последние полгода

для spacy то есть будет крутая русская модель (вроде какое-то время назад толком ничего не было)? это гуд

я релизю сейчас модели для spacy 2.3, которые в 10 раз быстрее DeepPavlov на CPU и при этом сравнимы с ним по качеству.
а в 3.0 будет два варианта моделей: модели с трансформером и эти же модели пойдут без трансформера.

22:28пожаловаться #14

YB

Natalia

кстати, а под POS подразумевается UPOS или XPOS скорее?

в CONLLU в 4й колонке стоит UPOS, такой разметки много. а русской разметки с XPOS, которая в 5й колонке, почти нигде и нет. соответственно, натренировать можно, но качество будет ужасным

22:29пожаловаться #15

N

Yuri Baburov

в CONLLU в 4й колонке стоит UPOS, такой разметки много. а русской разметки с XPOS, которая в 5й колонке, почти нигде и нет. соответственно, натренировать можно, но качество будет ужасным

а, ну качество FEATS/xpos интересно, конечно

22:30пожаловаться #16

N

"мелкой" морфологии

22:31пожаловаться #17

YB

Natalia

а, ну качество FEATS/xpos интересно, конечно

для FEATS нормальных русских бенчмарков пока нету, их никто не поддерживает.
для XPOS разметка в *grameval есть только для сабсета Wiki ( https://raw.githubusercontent.com/dialogue-evaluation/GramEval2020/master/dataTrain/GramEval2020-GSD-train.conllu )

22:31пожаловаться #18

N

ясненько! просто как минимум у UDPipe качество по всем колонкам вроде посчитано

Sebastian Pereira in Natural Language Processing

22:33пожаловаться #19

SP

Yuri Baburov

(а) для POS и DEP это уже не совсем так, а совсем скоро будет совсем не так.
у них же при этом и самые сложные конфиги для того, чтобы это применить, поэтому разрыв между демкой и применением будет наиболее суровый.
поэтому такой красивый NER для них скорее "витрина для продажи", а не вещь для реального применения.

++ про конфиг, суровые разрабы из МФТИ никого не жалеют