А для русского чем мутить? Word2vec по парам и потом логарифм сумм?
Ну это будет работать только если у тебя есть база запросов. Без этого просто тут не решить. Как вариант перевести MT все на английский а потом обратно. Если рантайм важен то перевести msmarco, а потом на нем обучить docT5query (T5 можно на mT5 попробовать поменять)
Всем привет! Подскажите, пожалуйста, а есть способы идентификции или приведения имен в "нормальные" формы? Например: ["Маша", "Машуля", "Машечка", "Maria" и тп] -> "Мария"
Всем привет! Подскажите, пожалуйста, а есть способы идентификции или приведения имен в "нормальные" формы? Например: ["Маша", "Машуля", "Машечка", "Maria" и тп] -> "Мария"
Это подзадача Named entity recognition и Named entity normalization. Natasha умеет такое.
но вообще осторожно такое автоматизировать для некоторых задач, потому что а) бывают гипокористики с несколькими соответствиями (Ася — Александра или Анастасия? или вообще Анна? Шура — Александр или Александра?), б) у некоторых людей прямо в паспорте может быть написано "ненормальное" имя