Size: a a a

Natural Language Processing

2020 August 27

YB

Yuri Baburov in Natural Language Processing
Sergey Shulga
А что за проект про визуализацию новостей?
источник

SS

Sergey Shulga in Natural Language Processing
Спасибо!!
источник

OR

Oleg Ruban in Natural Language Processing
Alexey Burnakov
прототип такой.
А где-то код или в деле можно это глянуть?
источник

FF

Futorio Franklin in Natural Language Processing
Oleg Ruban
А где-то код или в деле можно это глянуть?
Я так понимаю, что здесь https://proj-news-viz-flask.herokuapp.com/
источник

AB

Alexey Burnakov in Natural Language Processing
Oleg Ruban
А где-то код или в деле можно это глянуть?
Не( этот код я делаю в рамках работы в ТАСС. Наброски концепции в статье
источник

FF

Futorio Franklin in Natural Language Processing
Futorio Franklin
Я так понимаю, что здесь https://proj-news-viz-flask.herokuapp.com/
А нет, это не то
источник

AB

Alexey Burnakov in Natural Language Processing
На питоне и R делал, без привлечения библиотек lda, artm, dbscan. Хотя их пробовал тож
источник

OR

Oleg Ruban in Natural Language Processing
Alexey Burnakov
Не( этот код я делаю в рамках работы в ТАСС. Наброски концепции в статье
Понимаю)
источник

YB

Yuri Baburov in Natural Language Processing
Jack Golokhov
Здравствуйте. Есть подзадача понять является название улицы именем человека (проспект Маяковского) или просто образовано от него и таким не является (Кутузовский проспект). Ярги это легко делает:  для Маяковского list(addr_extractor.parser.findall(text))[3].tokens[2].forms[0] возвращает Form('маяковский', Grams(NOUN,Sgtm,Surn,anim,gent,masc,sing)), а для Кутузовского -  Form('кутузовский', Grams(ADJF,gent,masc,sing)) Где хранится атрибут Sgtm нашёл: grams.number. А вот где лежит так нужный мне Surn - ну никак. Можно взять из фрозен сета grams.values - но ведь должен же он где-то явно лежать.
для pymorphy пишут 'Surn' in word.tags . там их 120 штук, и не все из них в какие-то доп поля добавлены. в доп полях скорее всего только те, что нужны для согласования слов друг с другом.
источник

JG

Jack Golokhov in Natural Language Processing
Yuri Baburov
для pymorphy пишут 'Surn' in word.tags . там их 120 штук, и не все из них в какие-то доп поля добавлены. в доп полях скорее всего только те, что нужны для согласования слов друг с другом.
Спасибо.
источник

V

Vlad in Natural Language Processing
Здравствуйте, а как сейчас обстоят дела с корректировкой опечаток и простых грамматических ошибок в русском тексте?

Есть ли что-то по интереснее, чем например JamSpell?
источник

AK

Alex Konst in Natural Language Processing
Vlad
Здравствуйте, а как сейчас обстоят дела с корректировкой опечаток и простых грамматических ошибок в русском тексте?

Есть ли что-то по интереснее, чем например JamSpell?
очень плохо
источник

V

Vlad in Natural Language Processing
Alex Konst
очень плохо
Звучит грустно)
источник

YB

Yuri Baburov in Natural Language Processing
Vlad
Здравствуйте, а как сейчас обстоят дела с корректировкой опечаток и простых грамматических ошибок в русском тексте?

Есть ли что-то по интереснее, чем например JamSpell?
Deeppavlov утверждает, что он поточнее... Jamspell неплох идейно (хотя и исправляет только слова), но на большом корпусе его не обучить из-за бага. Надо, чтобы кто-то уже написал свой нормальный опенсорсный...
источник

V

Vlad in Natural Language Processing
Yuri Baburov
Deeppavlov утверждает, что он поточнее... Jamspell неплох идейно (хотя и исправляет только слова), но на большом корпусе его не обучить из-за бага. Надо, чтобы кто-то уже написал свой нормальный опенсорсный...
А на насколько большом корпусе возникает баг? Я обучал на ~300Мб текста, где-то полтора года назад, и в целом нормально работает. Лучше, чем hunspell (или как его) и встроенные в браузер/LibreOffice. Но всё равно слабоват
источник

YB

Yuri Baburov in Natural Language Processing
Vlad
А на насколько большом корпусе возникает баг? Я обучал на ~300Мб текста, где-то полтора года назад, и в целом нормально работает. Лучше, чем hunspell (или как его) и встроенные в браузер/LibreOffice. Но всё равно слабоват
Вот 1 Гб кажется предел. А корпуса можно найти на 320 гб (142 Либрусек+156 Оскар + 15 Гб новостей + 5 Гб Википедия).
источник

V

Vlad in Natural Language Processing
Понял, спасибо большое)
Попробую тогда диппавлова поковырять
источник

V

Vlad in Natural Language Processing
Вопрос по DeepPavlov: нет ли случайно у них скриптов, которыми они проводили сравнение своих моделей с другими решениями в задаче Spelling Correction? http://docs.deeppavlov.ai/en/master/features/models/spelling_correction.html#comparison

Судя по всему, в сравнении они использовали стандартную маленькую модель для JamSpell, которая очень слабая. Хотелось бы чисто из любопытства провести повторное сравнение по их методике, но с другими моделями для JamSpell, по больше
источник

AP

Aleksandr Perevalov in Natural Language Processing
Коллеги, добрый день. Встречались ли Вам работы по так называемым "Language specific features" в русском языке в контексте классификации текста. Интересуют именно "фишки" Русского языка, отличающие его от других. Аналогия в Немецком языке - очень длинные слова, получающиеся при конкатенации других простых слов.
источник

OR

Oleg Ruban in Natural Language Processing
Кто-то сталкивался с проблемой установки natasha.markup? Хочу достать именованные сущности из текста (имена, адреса, даты), но при установке пишет, что нет соответствующей версий, удовлетворяющей natasha.markup. Какие для неё требования по версиям?
источник