D
Я занимаюсь поиском ответов в одном большом документе. Таких документов много и они разные по содержанию, поэтому модель строю универсальную. Использую sentence bert, чтобы сделать репрезентацию для документа (делю документ на предложения и делаю из них embeddings). Далее использую cosine similarity чтобы найти одинаковые по контексту предложения. В прицепе результаты хорошие есть, но во всех случаях.
1) Поиск ведётся относительно одного предложения, без учёта контекста.
2)Так же в случаях, когда нужное предложение в документе намного больше запроса, то получается маленький similarity между ними и результат не выходит в топ 10 или даже в топ 20.
Что можете сказать насчёт используемого подхода и какие пути решения можно будет использовать в таком случае? Буду очень благодарен за ваши комментарии.