Size: a a a

Natural Language Processing

2021 February 24

SP

Sebastian Pereira in Natural Language Processing
Вообще проблема сходства в том, что слова в языке меняются подчиняясь определённым законам
источник

SP

Sebastian Pereira in Natural Language Processing
И похожие слова образовываются из разных непохожих.
источник

AC

Alexander C in Natural Language Processing
Sebastian Pereira
Для английского лингвистический дрейф в индоевропейском просчитывали математически - кибуц Стидмана работы
И похожие слова образовываются из разных непохожих.

примеры ?
источник

A

Anton in Natural Language Processing
Sergey Shulga
@yuri_baburov какой-то глюк, или под спейси 3.0.3 нет модели русского? python -m spacy download ru_core_news_lg выдает отсутствие
А sm пробовали?
источник

N

Natalia in Natural Language Processing
Alexander C
И похожие слова образовываются из разных непохожих.

примеры ?
да хотя бы английские омонимы bank
источник

A

Anton in Natural Language Processing
Sergey Shulga
@yuri_baburov какой-то глюк, или под спейси 3.0.3 нет модели русского? python -m spacy download ru_core_news_lg выдает отсутствие
Видимо не обновили md и lg пути для версии 3.0.3
sm загружается нормально
источник

AC

Alexander C in Natural Language Processing
Natalia
да хотя бы английские омонимы bank
благодарю.
Но судя по примерам - омонимы, бистро - это очень редкие примеры
источник

N

Natalia in Natural Language Processing
ну как сказать
источник

N

Natalia in Natural Language Processing
омоформы - тоже редкие?
источник

N

Natalia in Natural Language Processing
лечу - это какой глагол?
источник

AC

Alexander C in Natural Language Processing
Natalia
омоформы - тоже редкие?
разве нет ?
источник

N

Natalia in Natural Language Processing
это вопрос с подвохом? define "редкие"
источник

N

Natalia in Natural Language Processing
это всё в любом случае порождает n возможных вариантов реконструкции, частотность в данном случае определяется вообще другими вещами
источник

M

Mark in Natural Language Processing
Nikolay Chudinov
Пытаюсь изобрести велик...
на вход - текст страницы (по сути ключевое слово)
на выходе - список релевантных ключевых слов, якобы которым должен этот текст соответствовать, но получается так себе

Пример:
Базовое ключевое слово:  зарядное устройство для bmw купить
Найдено, 10 вариантов
- купить зарядное устройство для
- зарядное устройство бош купить
- портативные зарядные устройства купить
- купить сетевое зарядное устройство
- фонарик аккумуляторный светодиодный с зарядным устройством купить
- зарядное устройство для авто купить
- какое купить зарядное устройство для автомобильного аккумулятора
- зарядное устройство для шуруповерта 12 вольт купить
- зарядное устройство для автомобиля купить в москве
- пуско зарядное устройство купить в москве

Подскажите, в какую сторону копнуть?
p.s. без апи внешних сервисов
Для английского есть предобученный docTTTTTquery.
источник

N

Natalia in Natural Language Processing
но всё равно Ч может браться из t+j или k+j, условно говоря
источник

N

Natalia in Natural Language Processing
и так дальше для кучи звуков или сочетаний звуков можно разное придумать

если мы берём два языка, то уже в каждом из них будет своя горсть такой вариативности
источник
2021 February 25

N

Natalia in Natural Language Processing
но, возможно, есть смысл вообще моделировать вероятности фонетических изменений

в adress(e) не то же, что arrest, потому что латинская приставка ad- ассимилировалась, и по идее там либо в обоих случаях было бы arr-, либо там всё-таки корни начинаются с разных согласных, поэтому и результаты разные
источник

N

Natalia in Natural Language Processing
а звучит похоже, ну да, редкость
источник

AC

Alexander C in Natural Language Processing
Natalia
но, возможно, есть смысл вообще моделировать вероятности фонетических изменений

в adress(e) не то же, что arrest, потому что латинская приставка ad- ассимилировалась, и по идее там либо в обоих случаях было бы arr-, либо там всё-таки корни начинаются с разных согласных, поэтому и результаты разные
источник

AC

Alexander C in Natural Language Processing
ADrestum - задержка остановка
источник