Size: a a a

Natural Language Processing

2021 July 06

IG

Ilya Gusev in Natural Language Processing
Если применить к таргетам обучающей выборки сигмоиду, то в инференсе может получиться 1.1
источник

IG

Ilya Gusev in Natural Language Processing
Если применять сигмоиду дважды (в обучающей выборке и в инференсе), то получится совсем другое распределение
источник

IG

Ilya Gusev in Natural Language Processing
единственное, что может спасти от "12" и "1.1" - явный clamp и аккуратная работа с выбросами в обуающей выбрке
источник

d

dePuff in Natural Language Processing
Да я протупил, что не в логрег нормальное поведение выдать что-то за виденным диапазаоном
источник

AE

Anton Eryomin in Natural Language Processing
День добрый. А какое самое простое решение есть по внедрению spell checker на русском языке есть? Что бы избежать вот такого вот


'стажер',
'стажир',
'стажор',
источник

d

dePuff in Natural Language Processing
А так, да. Если мы в пайплайне юзаем тот самый нормализатор, который учили, то будет там и 1.1 и сколько угодно
источник

d

dePuff in Natural Language Processing
Расстояние Левенштейна  )
источник

AE

Anton Eryomin in Natural Language Processing
Ну оно так себе работать будет 🙂 и потом какой порог ставить в 1? )
источник

AE

Anton Eryomin in Natural Language Processing
хотя конечно в случае, со стажером будет довольно неплохо
источник

AE

Anton Eryomin in Natural Language Processing
но со всякими

кот
рот
дот
бот

уже прямо так себе
источник

IG

Ilya Gusev in Natural Language Processing
http://docs.deeppavlov.ai/en/master/features/models/spelling_correction.html, там есть сравнение разных вариантов
источник

AE

Anton Eryomin in Natural Language Processing
Спасибо большое за ссылку, буду изучать!
источник

d

dePuff in Natural Language Processing
А скажите мне иностранные языки популярные где "прыгал" и "прыгала" это разные слова (род зашит, как в русском)
источник

IG

Ilya Gusev in Natural Language Processing
https://fasttext.cc/docs/en/unsupervised-tutorial.html
но вообще информации не хватает, какие именно эмбеддинги хочется
источник

C

Cyril in Natural Language Processing
романские (итал, франц, исп и т.д.)
семитские (арабский, иврит и тд)
славянские (польский, чешский и тд)
источник

d

dePuff in Natural Language Processing
Не убивай меня сегодня.

В фасттексте же нельзя доубучать эмбединги?
источник

d

dePuff in Natural Language Processing
👍
источник

DS

Daria Samsonova in Natural Language Processing
вопрос только про род у глаголов?
источник

d

dePuff in Natural Language Processing
Чем его больше, тем лучше )
источник

d

dePuff in Natural Language Processing
И прилагательные и вот это вот всё тоже круто бы
источник