Ребят, что посоветуете для similarity предложений на русском языке? Попробовал ru2, но в нем нет векторов. Пробовал sent2vec, но нет предобученной модели на русском. В StanfordNLP Similarity очевидными способами посчитать нельзя. В deeppavlov дискретные значения 0 и 1, а нужно на отрезке. Часа четыре сижу, пока не очень успешно :с
В поиске по старым сообщениям беседы не нашел готовый инструмент
USE и Laser - мультиязычные энкодеры предложений, поддерживающие в т.ч. русский.
А ещё можно взять в диппавлове SentenceBERT - это BERT, пофайнтюненный на NLI, и он тоже неплохие эмбеддинги предложений даёт.
Fasttext действительно на удивление сильный бейзлайн, но он даже теоретически порядок слов не учитывает, а эти ребята хотя бы пытаются. На каких-то задачах это может быть важно.