Size: a a a

Natural Language Processing

2021 July 16

В

Валентин👾 in Natural Language Processing
Не сама генерация, а поиск совпадений из словаря в текстах
источник

DD

David Dale in Natural Language Processing
По счастью, быстродействие Ахокорасика почти не зависит от размера словаря. Особенно если ручками вычистить фамилии, которые дают очень много ложноположительных срабатываний.
источник

В

Валентин👾 in Natural Language Processing
Ну на самом деле есть ещё одна проблема - не все данные в исходном словаре могут быть правильно записаны (у части фамилий нет инициалов, где-то инициалы стоят позади, а не впереди), так что мы сейчас используем нечёткое сравнение строк, когда нам нужно сравнить найденную сущность со сущностью в словаре
источник

DD

David Dale in Natural Language Processing
Всем привет!
Те, кто уже общались со мной в этом чатике или вне его, могут знать, что я, помимо работы в Сколтехе, занимаюсь образовательными, разработческими и исследовательскими пет-прожектами и халтурками. В последнее время количество этих проектов существенно превышает временны́е ресурсы одного человека, так что я ищу себе подмастерье.

Сделка простая: с меня – доступ к интересным и оплачиваемым проектам и менторство, с вас – наличие свободного времени и готовность вовремя выполнять поставленные задачи.
От вас я ожидаю навыков Python и базового NLP и интереса к NLP, чатботам и голосовым приложениям. По оплате базово предлагаю долю в выполненных проектах, и, если надо, могу закрепить наши отношения договором ГПХ.
источник

t

toriningen in Natural Language Processing
добрый вечер. посоветуйте, пожалуйста, что-то легкое, чтобы подсчитать в слове слоги и проставить ударения? язык русский
источник

t

toriningen in Natural Language Processing
пока в истории этого чата нашел russtress от @vladis_kl, но не знаю, есть ли что лучше.
источник

V

Vlad in Natural Language Processing
https://github.com/Desklop/StressRNN и сверху ещё словарей добавить всяких. В соседнем чате по распознаванию речи скидывали как-то такие словари ударений

Ничего лучше пока не нашёл)
источник

t

toriningen in Natural Language Processing
да, спасибо, я как раз его сейчас и смотрю. а насчет словарей добавить - они обязательны? если да, порекомендуете ли, где взять?
источник

V

Vlad in Natural Language Processing
Там в целом неплохой базовый словарь, я описывал про это в ридми проекта. Доп словари по желанию, у меня всё никак руки не дойдут обновить их в репозитории)

Ещё можете глянуть russian_g2p, там в комплекте есть простая модель для ударений, она в некоторых случаях хорошо работает и имеет низкий процент неправильно поставленных ударений
источник

t

toriningen in Natural Language Processing
мне для шуточного проекта - я хочу отвечать на ритмически подходящие фразы заготовленными ответами 🙂

типа "бесполезный жирный сын" - "непростое украшенье"
источник

t

toriningen in Natural Language Processing
или "вицепрезидент" - "мальчик молодой". ну вы поняли идею
источник

V

Vlad in Natural Language Processing
Для первой версии я бы не запаривался настолько с поиском доп словарей)

А уже как будете тестировать - там будет видно, какое качество даст проект на вашей задаче. И потом решать дальше)
источник

t

toriningen in Natural Language Processing
совершенно случайно не делит ли stressrnn слова еще и на слоги? 🙂
источник

t

toriningen in Natural Language Processing
хотя, я могу просто подсчитывать гласные, и гласные с последующим +
источник

t

toriningen in Natural Language Processing
этого будет достаточно
источник

t

toriningen in Natural Language Processing
спасибо!
источник

V

Vlad in Natural Language Processing
Нет, он занимается только расстановкой ударений)

Разбор слов - совсем другая задача
источник

t

toriningen in Natural Language Processing
ну я уже понял, что мне, по сути, не нужны корректные разделения на слоги
источник

t

toriningen in Natural Language Processing
достаточно лишь знания о том, что в каждом слоге есть одна гласная, и делить уже по этому признаку 🙂
источник
2021 July 17

KL

Kir L in Natural Language Processing
всем привет
использую "Наташу" для извлечения организаций. По умолчанию она, например, в упор уверена, что Ламода - это человек (
как такое правильно в Наташе исправлять, как-то доучить и т.п.? или принять и смириться ;(
источник