Коллеги, всем привет!
А как бы вы подошли к решению вот такой задачи?
Есть список юр лиц (наименование + адрес). На вход подается также список юр лиц (опять же, наименование + адрес). Нужно к каждому ЮЛ из входного списка подобрать «одинаковое» из нашего исходного списка или указать, что в первом списке это ЮЛ не значится.
Проблема в том, что написание наименования и адреса могут варьироваться. С ОПФ, без ОПФ (это что касается наименование), в названии может быть аббревиатура, которая в нашем списке исходном, например, расшифрована, а во входящем – нет, в кавычках, без кавычек. Банальные опечатки тоже возможны. С адресами та же ситуация: с индексом, без индекса, порядок частей в адресе может быть другим, «дом» вместо «д.» и т. д.
Как считаете, что тут лучше попробовать?
Я смотрел в сторону эмбеддингов (получать для каждой строки «наименование адрес» и считать расстояние), но, правильно ли я понимаю, что любые эмбеддинги натренированы на «обычных» текстах, художественных или в крайнем случае научных, а тут у нас ни то, ни другое.
Так как считаете, как лучше подходить к решению этой задачи?