Size: a a a

Natural Language Processing

2021 September 21

AF

Alexander Fedorenko in Natural Language Processing
Господа, прошу помочь в поиске информации о сокращениях, аналогичных такому сборнику https://popravilam.com/blog/sokrashcheniya-osnovnye.html
Уверен, что я не первый с такой задачей.
Поделитесь пожалуйста опытом, информацией, всем чем можете, если будет на то желание
С уважением, к сообществу, Александр
источник

AM

Alex Mak in Natural Language Processing
Коллеги, всем привет!

А как бы вы подошли к решению вот такой задачи?

Есть список юр лиц (наименование + адрес). На вход подается также список юр лиц (опять же, наименование + адрес). Нужно к каждому ЮЛ из входного списка подобрать «одинаковое» из нашего исходного списка или указать, что в первом списке это ЮЛ не значится.
Проблема в том, что написание наименования и адреса могут варьироваться. С ОПФ, без ОПФ (это что касается наименование), в названии может быть аббревиатура, которая в нашем списке исходном, например, расшифрована, а во входящем – нет, в кавычках, без кавычек. Банальные опечатки тоже возможны. С адресами та же ситуация: с индексом, без индекса, порядок частей в адресе может быть другим, «дом» вместо «д.» и т. д.
Как считаете, что тут лучше попробовать?

Я смотрел в сторону эмбеддингов (получать для каждой строки «наименование  адрес» и считать расстояние), но, правильно ли я понимаю, что любые эмбеддинги натренированы на «обычных» текстах, художественных или в крайнем случае научных, а тут у нас ни то, ни другое.

Так как считаете, как лучше подходить к решению этой задачи?
источник

SancheZz Мов in Natural Language Processing
Парафразинг?) Дссм, сиамки и все такое?)
источник

SancheZz Мов in Natural Language Processing
Можно начать с char-nn
источник

SancheZz Мов in Natural Language Processing
Можно сразу bpe/wordpiece + трансформер какой-то в качестве энкодера
источник

SancheZz Мов in Natural Language Processing
Затюнить на таске сводить положительные пары имен, и разводить негатив
источник

SancheZz Мов in Natural Language Processing
Но нужны данные трейн в виде пар
источник

SancheZz Мов in Natural Language Processing
Если по простому то на основании метрик сходства строк строим фичи и в бустинг, но снова нужны пары размеченные
источник

SancheZz Мов in Natural Language Processing
Использование претрейн эмбеддингов на такой специфичный домен может не поехать
источник

AM

Alex Mak in Natural Language Processing
Вот да, я попробовал, где- о вылавливает похожие, а где-то - нет. Т е качество далеко от желаемого.
источник

SancheZz Мов in Natural Language Processing
Но попробовать можно добавить банально по тфидф близость
источник

SancheZz Мов in Natural Language Processing
Это поможет по редким словам метчить
источник

SancheZz Мов in Natural Language Processing
В дополнение к эмбеддингам
источник

SancheZz Мов in Natural Language Processing
Кстати в сети есть датасет
источник

SancheZz Мов in Natural Language Processing
На сибур челлендж были метчинг юр лиц и компаний
источник

SancheZz Мов in Natural Language Processing
Там можно как раз парафраз набраться
источник

AM

Alex Mak in Natural Language Processing
Ну а в целом спасибо большое за быстрый ответ.

Вот только я не настоящий нлпшник, поэтому пойду гуглить все термины из ваших ответов! )))
источник

SancheZz Мов in Natural Language Processing
И обучить свой энкодер
источник

SancheZz Мов in Natural Language Processing
Посмотри с сибур челленджа выступления на ютуб победителей
источник

SancheZz Мов in Natural Language Processing
Может поможет)
источник