Size: a a a

Natural Language Processing

2020 November 23

НК

Николай Карпенко... in Natural Language Processing
Andrey
Привет, я работаю над проектом, который может помочь в разработке решений, связанных с семантическим поиском, матчингом и рекомендательными системами.
Хочу лучше понять актуальные проблемы, поэтому ищу кого-нибудь, кто с этими технологиями работал и мог бы ответить на пару вопросов про свой опыт
Как быстро работает семантический поиск в сравнении полнотекстом?
источник

A

Andrey in Natural Language Processing
Николай Карпенко
Как быстро работает семантический поиск в сравнении полнотекстом?
ну это зависит от того, как его делать) Если на графах и прочих олд-скул технологиях, то не очень
источник

EB

Evgeniy Blinov in Natural Language Processing
Andrey
ну это зависит от того, как его делать) Если на графах и прочих олд-скул технологиях, то не очень
А какие новые технологии?
источник

A

Andrey in Natural Language Processing
Evgeniy Blinov
А какие новые технологии?
Если я расскажу сразу - будет bias)
источник

Д

Датасаенсяш... in Natural Language Processing
Да стопроц эмбеддинги делаешь, а дальше similarity считаешь =)
источник

НК

Николай Карпенко... in Natural Language Processing
😁
источник

E

Eug in Natural Language Processing
Всем привет!
Есть текст, слова в котором разбиты пробелами на группы букв ("мама мыла раму" => "ма м а м ы ла р аму").
Подскажите, пожалуйста, какие есть (могут быть) подходы решения задачи восстановления исходного текста.
источник

AS

Alex Surname in Natural Language Processing
Eug
Всем привет!
Есть текст, слова в котором разбиты пробелами на группы букв ("мама мыла раму" => "ма м а м ы ла р аму").
Подскажите, пожалуйста, какие есть (могут быть) подходы решения задачи восстановления исходного текста.
проходишь предложения  в поисках самого большого совпадения со словарем
источник

YB

Yuri Baburov in Natural Language Processing
Eug
Всем привет!
Есть текст, слова в котором разбиты пробелами на группы букв ("мама мыла раму" => "ма м а м ы ла р аму").
Подскажите, пожалуйста, какие есть (могут быть) подходы решения задачи восстановления исходного текста.
отвечал я недавно ровно на этот вопрос в ODS.
1) детекция (регуляркой какой-нибудь)
2) spell checking .
можно и сразу весь текст на spell checking подать, но на такой, который умеет несколько пробелов убирать сразу, как @kasha131 предлагает.
источник

E

Eug in Natural Language Processing
Спасибо! Буду пробовать.
источник

t

tkmwby in Natural Language Processing
Eug
Всем привет!
Есть текст, слова в котором разбиты пробелами на группы букв ("мама мыла раму" => "ма м а м ы ла р аму").
Подскажите, пожалуйста, какие есть (могут быть) подходы решения задачи восстановления исходного текста.
если убрать все пробелы то задача превратится в "сегментация текста на слова". а она уже известна (как НЕР и т.д.) - и способы решения есть.
источник

YB

Yuri Baburov in Natural Language Processing
tkmwby
если убрать все пробелы то задача превратится в "сегментация текста на слова". а она уже известна (как НЕР и т.д.) - и способы решения есть.
Так качество немного уменьшится, ведь "ма м а" подразумевает, что первое ма -- части одного слова, но не двух разных. Хотя если предположить, что деление неправильное, то тогда качество не ухудшится (это зависит от вероятности неправильной исходной сегментации)
источник

t

tkmwby in Natural Language Processing
Yuri Baburov
Так качество немного уменьшится, ведь "ма м а" подразумевает, что первое ма -- части одного слова, но не двух разных. Хотя если предположить, что деление неправильное, то тогда качество не ухудшится (это зависит от вероятности неправильной исходной сегментации)
не факт что уменьшиться. впрочем это "ма" можно использовать для выбора вариантов
источник

YB

Yuri Baburov in Natural Language Processing
tkmwby
не факт что уменьшиться. впрочем это "ма" можно использовать для выбора вариантов
Вот я про то же. Можно в beam search рескоринг делать, как вы предлагаете, а можно сразу конкатенировать куски слов, а не буквы (как в предложении @kasha131 выше)
источник

t

tkmwby in Natural Language Processing
Yuri Baburov
Вот я про то же. Можно в beam search рескоринг делать, как вы предлагаете, а можно сразу конкатенировать куски слов, а не буквы (как в предложении @kasha131 выше)
@kasha131 вроде предлагал "проходишь предложения  в поисках самого большого совпадения со словарем" - это другое. или я что то не так понял?
источник

AS

Alex Surname in Natural Language Processing
tkmwby
@kasha131 вроде предлагал "проходишь предложения  в поисках самого большого совпадения со словарем" - это другое. или я что то не так понял?
есть репозиторий hitman на гитхабе, там парсер слов китайского языка(в китайском нет пробелов), можешь глянуть как сорс
источник

t

tkmwby in Natural Language Processing
Alex Surname
есть репозиторий hitman на гитхабе, там парсер слов китайского языка(в китайском нет пробелов), можешь глянуть как сорс
китайский не знаю. может в нем ситуация самого большого слова и верна. для русского то нет. или как?
источник

AS

Alex Surname in Natural Language Processing
tkmwby
китайский не знаю. может в нем ситуация самого большого слова и верна. для русского то нет. или как?
почему для русского не верна?
источник

AS

Alex Surname in Natural Language Processing
словарь конечно же должен поддерживать словоформы тоже
источник

t

tkmwby in Natural Language Processing
Alex Surname
почему для русского не верна?
язык так устроен?
источник