Телеграмм чат группы natural_language_processing страница 922

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

2216 membersпожаловаться на группу

2020 November 23

НК

Николай Карпенко... in Natural Language Processing

Привет, я работаю над проектом, который может помочь в разработке решений, связанных с семантическим поиском, матчингом и рекомендательными системами.
Хочу лучше понять актуальные проблемы, поэтому ищу кого-нибудь, кто с этими технологиями работал и мог бы ответить на пару вопросов про свой опыт

Как быстро работает семантический поиск в сравнении полнотекстом?

источник

15:02пожаловаться #1

A

Andrey in Natural Language Processing

Николай Карпенко

Как быстро работает семантический поиск в сравнении полнотекстом?

ну это зависит от того, как его делать) Если на графах и прочих олд-скул технологиях, то не очень

источник

15:03пожаловаться #2

EB

Evgeniy Blinov in Natural Language Processing

ну это зависит от того, как его делать) Если на графах и прочих олд-скул технологиях, то не очень

А какие новые технологии?

источник

15:10пожаловаться #3

A

Andrey in Natural Language Processing

А какие новые технологии?

Если я расскажу сразу - будет bias)

источник

15:12пожаловаться #4

Д

Датасаенсяш... in Natural Language Processing

Да стопроц эмбеддинги делаешь, а дальше similarity считаешь =)

источник

15:16пожаловаться #5

НК

Николай Карпенко... in Natural Language Processing

😁

источник

15:18пожаловаться #6

E

Eug in Natural Language Processing

Всем привет!
Есть текст, слова в котором разбиты пробелами на группы букв ("мама мыла раму" => "ма м а м ы ла р аму").
Подскажите, пожалуйста, какие есть (могут быть) подходы решения задачи восстановления исходного текста.

источник

16:11пожаловаться #7

AS

Alex Surname in Natural Language Processing

Eug

Всем привет!
Есть текст, слова в котором разбиты пробелами на группы букв ("мама мыла раму" => "ма м а м ы ла р аму").
Подскажите, пожалуйста, какие есть (могут быть) подходы решения задачи восстановления исходного текста.

проходишь предложения в поисках самого большого совпадения со словарем

источник

16:26пожаловаться #8

YB

Yuri Baburov in Natural Language Processing

Eug

Всем привет!
Есть текст, слова в котором разбиты пробелами на группы букв ("мама мыла раму" => "ма м а м ы ла р аму").
Подскажите, пожалуйста, какие есть (могут быть) подходы решения задачи восстановления исходного текста.

отвечал я недавно ровно на этот вопрос в ODS.
1) детекция (регуляркой какой-нибудь)
2) spell checking .
можно и сразу весь текст на spell checking подать, но на такой, который умеет несколько пробелов убирать сразу, как @kasha131 предлагает.

источник

16:27пожаловаться #9

E

Eug in Natural Language Processing

Спасибо! Буду пробовать.

источник

16:34пожаловаться #10

t

tkmwby in Natural Language Processing

Eug

Всем привет!
Есть текст, слова в котором разбиты пробелами на группы букв ("мама мыла раму" => "ма м а м ы ла р аму").
Подскажите, пожалуйста, какие есть (могут быть) подходы решения задачи восстановления исходного текста.

если убрать все пробелы то задача превратится в "сегментация текста на слова". а она уже известна (как НЕР и т.д.) - и способы решения есть.

источник

16:57пожаловаться #11

YB

Yuri Baburov in Natural Language Processing

tkmwby

если убрать все пробелы то задача превратится в "сегментация текста на слова". а она уже известна (как НЕР и т.д.) - и способы решения есть.

Так качество немного уменьшится, ведь "ма м а" подразумевает, что первое ма -- части одного слова, но не двух разных. Хотя если предположить, что деление неправильное, то тогда качество не ухудшится (это зависит от вероятности неправильной исходной сегментации)

источник

16:59пожаловаться #12

t

tkmwby in Natural Language Processing

Так качество немного уменьшится, ведь "ма м а" подразумевает, что первое ма -- части одного слова, но не двух разных. Хотя если предположить, что деление неправильное, то тогда качество не ухудшится (это зависит от вероятности неправильной исходной сегментации)

не факт что уменьшиться. впрочем это "ма" можно использовать для выбора вариантов

источник

17:01пожаловаться #13

YB

Yuri Baburov in Natural Language Processing

tkmwby

не факт что уменьшиться. впрочем это "ма" можно использовать для выбора вариантов

Вот я про то же. Можно в beam search рескоринг делать, как вы предлагаете, а можно сразу конкатенировать куски слов, а не буквы (как в предложении @kasha131 выше)

источник

17:03пожаловаться #14

t

tkmwby in Natural Language Processing

Вот я про то же. Можно в beam search рескоринг делать, как вы предлагаете, а можно сразу конкатенировать куски слов, а не буквы (как в предложении @kasha131 выше)

@kasha131 вроде предлагал "проходишь предложения в поисках самого большого совпадения со словарем" - это другое. или я что то не так понял?

источник

17:08пожаловаться #15

AS

Alex Surname in Natural Language Processing

tkmwby

@kasha131 вроде предлагал "проходишь предложения в поисках самого большого совпадения со словарем" - это другое. или я что то не так понял?

есть репозиторий hitman на гитхабе, там парсер слов китайского языка(в китайском нет пробелов), можешь глянуть как сорс

источник

17:10пожаловаться #16

t

tkmwby in Natural Language Processing

есть репозиторий hitman на гитхабе, там парсер слов китайского языка(в китайском нет пробелов), можешь глянуть как сорс

китайский не знаю. может в нем ситуация самого большого слова и верна. для русского то нет. или как?

источник

17:14пожаловаться #17

AS

Alex Surname in Natural Language Processing

tkmwby

китайский не знаю. может в нем ситуация самого большого слова и верна. для русского то нет. или как?

почему для русского не верна?

источник

17:14пожаловаться #18

AS

Alex Surname in Natural Language Processing

словарь конечно же должен поддерживать словоформы тоже

источник

17:14пожаловаться #19

t

tkmwby in Natural Language Processing

почему для русского не верна?

язык так устроен?

источник

17:15пожаловаться #20