Size: a a a

Natural Language Processing

2020 October 22

N

Natalia in Natural Language Processing
потому, что, конечно, одно дело классифицировать на 10 или сколько там POS, а другое — все цепочки тегов
источник

YB

Yuri Baburov in Natural Language Processing
Natalia
потому, что, конечно, одно дело классифицировать на 10 или сколько там POS, а другое — все цепочки тегов
ну, можно UPOS+Feats считать вместо XPOS+Feats.
источник

YB

Yuri Baburov in Natural Language Processing
Yuri Baburov
ну, можно UPOS+Feats считать вместо XPOS+Feats.
и в grameval именно так и делают:
https://github.com/dialogue-evaluation/GramEval2020/blob/master/evaluate.py#L50
только они общую оценку выводят, а не по отдельным секциям.
источник

N

Natalia in Natural Language Processing
а в теггере у DP всё через запятую вообще, похоже:
http://docs.deeppavlov.ai/en/master/features/models/morphotagger.html (и мб качество мерялось именно так —  я, если честно, детального пояснения не вижу, кажется просто наиболее очевидным)
источник

YB

Yuri Baburov in Natural Language Processing
Natalia
а в теггере у DP всё через запятую вообще, похоже:
http://docs.deeppavlov.ai/en/master/features/models/morphotagger.html (и мб качество мерялось именно так —  я, если честно, детального пояснения не вижу, кажется просто наиболее очевидным)
http://ufal.mff.cuni.cz/udpipe/1/models
russian - SynTagRus — нет XPOS.
Russian-GSD — это вики, от неё толку мало.
Russian-Taiga — серебряный корпус, толку мало.
http://ufal.mff.cuni.cz/udpipe/2/models — у меня не открывается.
источник

N

Natalia in Natural Language Processing
ну UFEATS вроде есть у всех :)
ну энивей, как раз поэтому я и говорила, что в теории, конечно, круто бы сделать чуть доступней и модели за пределами UDPipe, там на редких словах хватает косяков, кажется
источник

YB

Yuri Baburov in Natural Language Processing
Natalia
ну UFEATS вроде есть у всех :)
ну энивей, как раз поэтому я и говорила, что в теории, конечно, круто бы сделать чуть доступней и модели за пределами UDPipe, там на редких словах хватает косяков, кажется
надо померить будет кому-то, метрика в grameval есть. только там датасеты косячные немного. сам наблюдал, как одни и те же слова были размечены немного по-разному в FEATS в разных датасетах, возможно где-то до UD 2.6 разметку не доапдейтили.
UDPipe 1 по Naeval вообще от всех сильно отстаёт по всем параметрам, а UDPipe2 никто не натренировал и не выложил пока.
источник

N

Natalia in Natural Language Processing
там странные датасеты, я смотрела немножко в начале года, да
источник

N

Natalia in Natural Language Processing
но лучше хоть какие-то!
источник

DK

Denis Kirjanov in Natural Language Processing
датасеты в грамэвале странные, это правда, и разметка не всегда консистентная
источник

YB

Yuri Baburov in Natural Language Processing
вообще, датасеты там клёвые, главное — они большие.
а ошибки модель сама обобщит. просто не ждите от идеальной модели 100% по их метрикам из-за ошибок.
источник

YB

Yuri Baburov in Natural Language Processing
а для того, чтобы показать, насколько разметка влияет и насколько UD меняется со временем: метрика по POS у меня на 5% меняется между версиями SynTagRus-v1 и SynTagRus-v2, UAS на 1.5%, LAS на 3%. между подверсиями v2 поменьше конечно, но думаю 1% точно будет.
источник

N

Natalia in Natural Language Processing
Yuri Baburov
вообще, датасеты там клёвые, главное — они большие.
а ошибки модель сама обобщит. просто не ждите от идеальной модели 100% по их метрикам из-за ошибок.
ну там выглядит скорее как недовалидированная консистентность и мб результат соотношения срочности и размера
источник

N

Natalia in Natural Language Processing
Yuri Baburov
а для того, чтобы показать, насколько разметка влияет и насколько UD меняется со временем: метрика по POS у меня на 5% меняется между версиями SynTagRus-v1 и SynTagRus-v2, UAS на 1.5%, LAS на 3%. между подверсиями v2 поменьше конечно, но думаю 1% точно будет.
это как раз предсказуемо! и трибанки обновляются, и трибанк трибанку рознь
источник

N

Natalia in Natural Language Processing
но 5% разницы — это прямо ого
источник

N

Natalia in Natural Language Processing
там скорее ещё вопрос, кто понимает вообще разницу качества по разным трибанкам как следует, считая разные фишечки по большим выборкам :)
источник

N

Natalia in Natural Language Processing
и там не всегда только в размере данных дело
источник

YB

Yuri Baburov in Natural Language Processing
Natalia
там скорее ещё вопрос, кто понимает вообще разницу качества по разным трибанкам как следует, считая разные фишечки по большим выборкам :)
вот именно. в naeval 5 сабсетов поэтому. и сразу видно, какая модель чему училась. правда, там train+dev для большей точности, но чую придётся менять скоро.
источник

OR

Oleg Ruban in Natural Language Processing
Yuri Baburov
я релизю сейчас модели для spacy 2.3, которые в 10 раз быстрее DeepPavlov на CPU и при этом сравнимы с ним по качеству.
а в 3.0 будет два варианта моделей: модели с трансформером и эти же модели пойдут без трансформера.
Я правильно понимаю, занимаетесь обучением SlovNetBert для русского языка, которая на CPU дает хороший прирост в скорости?
источник

YB

Yuri Baburov in Natural Language Processing
Oleg Ruban
Я правильно понимаю, занимаетесь обучением SlovNetBert для русского языка, которая на CPU дает хороший прирост в скорости?
нет. я spacy-ru делаю. SlovNet делает @alexkuk
речь в том сообщении шла про модели для spacy.
источник