Телеграмм чат группы natural_language

Здравствуйте. Есть подзадача понять является название улицы именем человека (проспект Маяковского) или просто образовано от него и таким не является (Кутузовский проспект). Ярги это легко делает: для Маяковского list(addr_extractor.parser.findall(text))[3].tokens[2].forms[0] возвращает Form('маяковский', Grams(NOUN,Sgtm,Surn,anim,gent,masc,sing)), а для Кутузовского - Form('кутузовский', Grams(ADJF,gent,masc,sing)) Где хранится атрибут Sgtm нашёл: grams.number. А вот где лежит так нужный мне Surn - ну никак. Можно взять из фрозен сета grams.values - но ведь должен же он где-то явно лежать.

для pymorphy пишут 'Surn' in word.tags . там их 120 штук, и не все из них в какие-то доп поля добавлены. в доп полях скорее всего только те, что нужны для согласования слов друг с другом.

источник

14:28пожаловаться #9

JG

Jack Golokhov in Natural Language Processing

Yuri Baburov

для pymorphy пишут 'Surn' in word.tags . там их 120 штук, и не все из них в какие-то доп поля добавлены. в доп полях скорее всего только те, что нужны для согласования слов друг с другом.

Спасибо.

источник

14:36пожаловаться #10

V

Vlad in Natural Language Processing

Здравствуйте, а как сейчас обстоят дела с корректировкой опечаток и простых грамматических ошибок в русском тексте?

Есть ли что-то по интереснее, чем например JamSpell?

источник

15:07пожаловаться #11

AK

Alex Konst in Natural Language Processing

Vlad

Здравствуйте, а как сейчас обстоят дела с корректировкой опечаток и простых грамматических ошибок в русском тексте?

Есть ли что-то по интереснее, чем например JamSpell?

очень плохо

источник

15:16пожаловаться #12

V

Vlad in Natural Language Processing

Alex Konst

очень плохо

Звучит грустно)

источник

15:22пожаловаться #13

YB

Yuri Baburov in Natural Language Processing

Vlad

Здравствуйте, а как сейчас обстоят дела с корректировкой опечаток и простых грамматических ошибок в русском тексте?

Есть ли что-то по интереснее, чем например JamSpell?

Deeppavlov утверждает, что он поточнее... Jamspell неплох идейно (хотя и исправляет только слова), но на большом корпусе его не обучить из-за бага. Надо, чтобы кто-то уже написал свой нормальный опенсорсный...

источник

15:27пожаловаться #14

V

Vlad in Natural Language Processing

Yuri Baburov

Deeppavlov утверждает, что он поточнее... Jamspell неплох идейно (хотя и исправляет только слова), но на большом корпусе его не обучить из-за бага. Надо, чтобы кто-то уже написал свой нормальный опенсорсный...

А на насколько большом корпусе возникает баг? Я обучал на ~300Мб текста, где-то полтора года назад, и в целом нормально работает. Лучше, чем hunspell (или как его) и встроенные в браузер/LibreOffice. Но всё равно слабоват

источник

15:30пожаловаться #15

YB

Yuri Baburov in Natural Language Processing

Vlad

А на насколько большом корпусе возникает баг? Я обучал на ~300Мб текста, где-то полтора года назад, и в целом нормально работает. Лучше, чем hunspell (или как его) и встроенные в браузер/LibreOffice. Но всё равно слабоват

Вот 1 Гб кажется предел. А корпуса можно найти на 320 гб (142 Либрусек+156 Оскар + 15 Гб новостей + 5 Гб Википедия).

источник

15:33пожаловаться #16

V

Vlad in Natural Language Processing

Понял, спасибо большое)
Попробую тогда диппавлова поковырять

источник

15:34пожаловаться #17

V

Vlad in Natural Language Processing

Вопрос по DeepPavlov: нет ли случайно у них скриптов, которыми они проводили сравнение своих моделей с другими решениями в задаче Spelling Correction? http://docs.deeppavlov.ai/en/master/features/models/spelling_correction.html#comparison

Судя по всему, в сравнении они использовали стандартную маленькую модель для JamSpell, которая очень слабая. Хотелось бы чисто из любопытства провести повторное сравнение по их методике, но с другими моделями для JamSpell, по больше

источник

15:54пожаловаться #18

AP

Aleksandr Perevalov in Natural Language Processing

Коллеги, добрый день. Встречались ли Вам работы по так называемым "Language specific features" в русском языке в контексте классификации текста. Интересуют именно "фишки" Русского языка, отличающие его от других. Аналогия в Немецком языке - очень длинные слова, получающиеся при конкатенации других простых слов.

источник

16:05пожаловаться #19

OR

Oleg Ruban in Natural Language Processing

Кто-то сталкивался с проблемой установки natasha.markup? Хочу достать именованные сущности из текста (имена, адреса, даты), но при установке пишет, что нет соответствующей версий, удовлетворяющей natasha.markup. Какие для неё требования по версиям?

источник

16:17пожаловаться #20