Телеграмм чат группы natural_language_processing страница 1445

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

3198 membersпожаловаться на группу

2021 September 21

AF

Alexander Fedorenko in Natural Language Processing

Господа, прошу помочь в поиске информации о сокращениях, аналогичных такому сборнику https://popravilam.com/blog/sokrashcheniya-osnovnye.html
Уверен, что я не первый с такой задачей.
Поделитесь пожалуйста опытом, информацией, всем чем можете, если будет на то желание
С уважением, к сообществу, Александр

Список общепринятых сокращений русского языка: онлайн-словарь

Как правильно писать сокращения: актуальный список основных сокращений из орфографического словаря русского языка.

источник

11:08пожаловаться #1

AM

Alex Mak in Natural Language Processing

Коллеги, всем привет!

А как бы вы подошли к решению вот такой задачи?

Есть список юр лиц (наименование + адрес). На вход подается также список юр лиц (опять же, наименование + адрес). Нужно к каждому ЮЛ из входного списка подобрать «одинаковое» из нашего исходного списка или указать, что в первом списке это ЮЛ не значится.
Проблема в том, что написание наименования и адреса могут варьироваться. С ОПФ, без ОПФ (это что касается наименование), в названии может быть аббревиатура, которая в нашем списке исходном, например, расшифрована, а во входящем – нет, в кавычках, без кавычек. Банальные опечатки тоже возможны. С адресами та же ситуация: с индексом, без индекса, порядок частей в адресе может быть другим, «дом» вместо «д.» и т. д.
Как считаете, что тут лучше попробовать?

Я смотрел в сторону эмбеддингов (получать для каждой строки «наименование адрес» и считать расстояние), но, правильно ли я понимаю, что любые эмбеддинги натренированы на «обычных» текстах, художественных или в крайнем случае научных, а тут у нас ни то, ни другое.

Так как считаете, как лучше подходить к решению этой задачи?

источник

11:23пожаловаться #2

SМ

SancheZz Мов in Natural Language Processing

Парафразинг?) Дссм, сиамки и все такое?)

источник

11:25пожаловаться #3

SМ

SancheZz Мов in Natural Language Processing

Можно начать с char-nn

источник

11:26пожаловаться #4

SМ

SancheZz Мов in Natural Language Processing

Можно сразу bpe/wordpiece + трансформер какой-то в качестве энкодера

источник

11:26пожаловаться #5

SМ

SancheZz Мов in Natural Language Processing

Затюнить на таске сводить положительные пары имен, и разводить негатив

источник

11:27пожаловаться #6

SМ

SancheZz Мов in Natural Language Processing

Но нужны данные трейн в виде пар

источник

11:27пожаловаться #7

SМ

SancheZz Мов in Natural Language Processing

Если по простому то на основании метрик сходства строк строим фичи и в бустинг, но снова нужны пары размеченные

источник

11:28пожаловаться #8

SМ

SancheZz Мов in Natural Language Processing

Использование претрейн эмбеддингов на такой специфичный домен может не поехать

источник

11:29пожаловаться #9

AM

Alex Mak in Natural Language Processing

Вот да, я попробовал, где- о вылавливает похожие, а где-то - нет. Т е качество далеко от желаемого.

источник

11:30пожаловаться #10

SМ

SancheZz Мов in Natural Language Processing

Но попробовать можно добавить банально по тфидф близость

источник

11:31пожаловаться #11

SМ

SancheZz Мов in Natural Language Processing

Это поможет по редким словам метчить

источник

11:31пожаловаться #12

SМ

SancheZz Мов in Natural Language Processing

В дополнение к эмбеддингам

источник

11:31пожаловаться #13

SМ

SancheZz Мов in Natural Language Processing

Кстати в сети есть датасет

источник

11:32пожаловаться #14

SМ

SancheZz Мов in Natural Language Processing

На сибур челлендж были метчинг юр лиц и компаний

источник

11:33пожаловаться #15

SМ

SancheZz Мов in Natural Language Processing

Там можно как раз парафраз набраться

источник

11:33пожаловаться #16

AM

Alex Mak in Natural Language Processing

Ну а в целом спасибо большое за быстрый ответ.

Вот только я не настоящий нлпшник, поэтому пойду гуглить все термины из ваших ответов! )))

источник

11:33пожаловаться #17

SМ

SancheZz Мов in Natural Language Processing

И обучить свой энкодер

источник

11:34пожаловаться #18

SМ

SancheZz Мов in Natural Language Processing

Посмотри с сибур челленджа выступления на ютуб победителей

источник

11:34пожаловаться #19

SМ

SancheZz Мов in Natural Language Processing

Может поможет)

источник

11:34пожаловаться #20