Привет, я работаю над проектом, который может помочь в разработке решений, связанных с семантическим поиском, матчингом и рекомендательными системами. Хочу лучше понять актуальные проблемы, поэтому ищу кого-нибудь, кто с этими технологиями работал и мог бы ответить на пару вопросов про свой опыт
Как быстро работает семантический поиск в сравнении полнотекстом?
Всем привет! Есть текст, слова в котором разбиты пробелами на группы букв ("мама мыла раму" => "ма м а м ы ла р аму"). Подскажите, пожалуйста, какие есть (могут быть) подходы решения задачи восстановления исходного текста.
Всем привет! Есть текст, слова в котором разбиты пробелами на группы букв ("мама мыла раму" => "ма м а м ы ла р аму"). Подскажите, пожалуйста, какие есть (могут быть) подходы решения задачи восстановления исходного текста.
проходишь предложения в поисках самого большого совпадения со словарем
Всем привет! Есть текст, слова в котором разбиты пробелами на группы букв ("мама мыла раму" => "ма м а м ы ла р аму"). Подскажите, пожалуйста, какие есть (могут быть) подходы решения задачи восстановления исходного текста.
отвечал я недавно ровно на этот вопрос в ODS. 1) детекция (регуляркой какой-нибудь) 2) spell checking . можно и сразу весь текст на spell checking подать, но на такой, который умеет несколько пробелов убирать сразу, как @kasha131 предлагает.
Всем привет! Есть текст, слова в котором разбиты пробелами на группы букв ("мама мыла раму" => "ма м а м ы ла р аму"). Подскажите, пожалуйста, какие есть (могут быть) подходы решения задачи восстановления исходного текста.
если убрать все пробелы то задача превратится в "сегментация текста на слова". а она уже известна (как НЕР и т.д.) - и способы решения есть.
если убрать все пробелы то задача превратится в "сегментация текста на слова". а она уже известна (как НЕР и т.д.) - и способы решения есть.
Так качество немного уменьшится, ведь "ма м а" подразумевает, что первое ма -- части одного слова, но не двух разных. Хотя если предположить, что деление неправильное, то тогда качество не ухудшится (это зависит от вероятности неправильной исходной сегментации)
Так качество немного уменьшится, ведь "ма м а" подразумевает, что первое ма -- части одного слова, но не двух разных. Хотя если предположить, что деление неправильное, то тогда качество не ухудшится (это зависит от вероятности неправильной исходной сегментации)
не факт что уменьшиться. впрочем это "ма" можно использовать для выбора вариантов
не факт что уменьшиться. впрочем это "ма" можно использовать для выбора вариантов
Вот я про то же. Можно в beam search рескоринг делать, как вы предлагаете, а можно сразу конкатенировать куски слов, а не буквы (как в предложении @kasha131 выше)
Вот я про то же. Можно в beam search рескоринг делать, как вы предлагаете, а можно сразу конкатенировать куски слов, а не буквы (как в предложении @kasha131 выше)
@kasha131 вроде предлагал "проходишь предложения в поисках самого большого совпадения со словарем" - это другое. или я что то не так понял?