Ещё если есть большая обучающая выборка, можно просто двумя несвязанными энкодерами получить представления вопроса и ответа и обучать модель минимизировать косинусное расстояние между этими представлениями. Из-за того, что энкодеры не связаны, непохожесть ответа на вопрос никак не помешает