Телеграмм чат группы natural_language

Size: a a a

Natural Language Processing

3198 membersпожаловаться на группу

2021 July 16

Валентин👾 in Natural Language Processing

Не сама генерация, а поиск совпадений из словаря в текстах

источник

20:20пожаловаться #1

David Dale in Natural Language Processing

По счастью, быстродействие Ахокорасика почти не зависит от размера словаря. Особенно если ручками вычистить фамилии, которые дают очень много ложноположительных срабатываний.

источник

20:21пожаловаться #2

Валентин👾 in Natural Language Processing

Ну на самом деле есть ещё одна проблема - не все данные в исходном словаре могут быть правильно записаны (у части фамилий нет инициалов, где-то инициалы стоят позади, а не впереди), так что мы сейчас используем нечёткое сравнение строк, когда нам нужно сравнить найденную сущность со сущностью в словаре

источник

20:27пожаловаться #3

David Dale in Natural Language Processing

Всем привет!
Те, кто уже общались со мной в этом чатике или вне его, могут знать, что я, помимо работы в Сколтехе, занимаюсь образовательными, разработческими и исследовательскими пет-прожектами и халтурками. В последнее время количество этих проектов существенно превышает временны́е ресурсы одного человека, так что я ищу себе подмастерье.

Сделка простая: с меня – доступ к интересным и оплачиваемым проектам и менторство, с вас – наличие свободного времени и готовность вовремя выполнять поставленные задачи.
От вас я ожидаю навыков Python и базового NLP и интереса к NLP, чатботам и голосовым приложениям. По оплате базово предлагаю долю в выполненных проектах, и, если надо, могу закрепить наши отношения договором ГПХ.

источник

22:08пожаловаться #4

toriningen in Natural Language Processing

добрый вечер. посоветуйте, пожалуйста, что-то легкое, чтобы подсчитать в слове слоги и проставить ударения? язык русский

источник

22:11пожаловаться #5

toriningen in Natural Language Processing

пока в истории этого чата нашел russtress от @vladis_kl, но не знаю, есть ли что лучше.

источник

22:12пожаловаться #6

Vlad in Natural Language Processing

https://github.com/Desklop/StressRNN и сверху ещё словарей добавить всяких. В соседнем чате по распознаванию речи скидывали как-то такие словари ударений

Ничего лучше пока не нашёл)

GitHub

GitHub - Desklop/StressRNN: Modified version of RusStress (https://github.com/MashaPo/russtress) — python package for placing stress in Russian text using RNN (BiLSTM) and the "Grammatical Dictionary" by A. A. Zaliznyak (from http://odict.ru/).

Modified version of RusStress (https://github.com/MashaPo/russtress) — python package for placing stress in Russian text using RNN (BiLSTM) and the "Grammatical Dictionary" by A. ...

источник

22:16пожаловаться #7

toriningen in Natural Language Processing

да, спасибо, я как раз его сейчас и смотрю. а насчет словарей добавить - они обязательны? если да, порекомендуете ли, где взять?

источник

22:18пожаловаться #8

Vlad in Natural Language Processing

Там в целом неплохой базовый словарь, я описывал про это в ридми проекта. Доп словари по желанию, у меня всё никак руки не дойдут обновить их в репозитории)

Ещё можете глянуть russian_g2p, там в комплекте есть простая модель для ударений, она в некоторых случаях хорошо работает и имеет низкий процент неправильно поставленных ударений

источник

22:20пожаловаться #9

toriningen in Natural Language Processing

мне для шуточного проекта - я хочу отвечать на ритмически подходящие фразы заготовленными ответами 🙂

типа "бесполезный жирный сын" - "непростое украшенье"

источник

22:21пожаловаться #10

toriningen in Natural Language Processing

или "вицепрезидент" - "мальчик молодой". ну вы поняли идею

источник

22:22пожаловаться #11

Vlad in Natural Language Processing

Для первой версии я бы не запаривался настолько с поиском доп словарей)

А уже как будете тестировать - там будет видно, какое качество даст проект на вашей задаче. И потом решать дальше)

источник

22:23пожаловаться #12

toriningen in Natural Language Processing

совершенно случайно не делит ли stressrnn слова еще и на слоги? 🙂

источник

22:25пожаловаться #13

toriningen in Natural Language Processing

хотя, я могу просто подсчитывать гласные, и гласные с последующим +

источник

22:25пожаловаться #14

toriningen in Natural Language Processing

этого будет достаточно

источник

22:25пожаловаться #15

toriningen in Natural Language Processing

спасибо!

источник

22:25пожаловаться #16

Vlad in Natural Language Processing

Нет, он занимается только расстановкой ударений)

Разбор слов - совсем другая задача

источник

22:25пожаловаться #17

toriningen in Natural Language Processing

ну я уже понял, что мне, по сути, не нужны корректные разделения на слоги

источник

22:25пожаловаться #18

toriningen in Natural Language Processing

достаточно лишь знания о том, что в каждом слоге есть одна гласная, и делить уже по этому признаку 🙂

источник

22:26пожаловаться #19

2021 July 17

Kir L in Natural Language Processing

всем привет
использую "Наташу" для извлечения организаций. По умолчанию она, например, в упор уверена, что Ламода - это человек (
как такое правильно в Наташе исправлять, как-то доучить и т.п.? или принять и смириться ;(

источник

09:46пожаловаться #20