Size: a a a

Natural Language Processing

2020 September 15

BS

Bogdan Salyp in Natural Language Processing
Ребят, что посоветуете для similarity предложений на русском языке? Попробовал ru2, но в нем нет векторов. Пробовал sent2vec, но нет предобученной модели на русском. В StanfordNLP Similarity очевидными способами посчитать нельзя. В deeppavlov дискретные значения 0 и 1, а нужно на отрезке. Часа четыре сижу, пока не очень успешно :с

В поиске по старым сообщениям беседы не нашел готовый инструмент
источник

М

Марк in Natural Language Processing
Bogdan Salyp
Ребят, что посоветуете для similarity предложений на русском языке? Попробовал ru2, но в нем нет векторов. Пробовал sent2vec, но нет предобученной модели на русском. В StanfordNLP Similarity очевидными способами посчитать нельзя. В deeppavlov дискретные значения 0 и 1, а нужно на отрезке. Часа четыре сижу, пока не очень успешно :с

В поиске по старым сообщениям беседы не нашел готовый инструмент
Fast text. И косинусное расстояние. Стандартный base model.
источник

BS

Bogdan Salyp in Natural Language Processing
Хм, то есть нормально работает усреднить вектора всех слов в предложении?
источник

М

Марк in Natural Language Processing
Bogdan Salyp
Хм, то есть нормально работает усреднить вектора всех слов в предложении?
Да, в полне.
источник

BS

Bogdan Salyp in Natural Language Processing
sent2vec на русском предобученный не нашел
источник

BS

Bogdan Salyp in Natural Language Processing
Хорошо, спасибо! Попробую и отпишусь
источник

D

Dmitry in Natural Language Processing
Марк
Fast text. И косинусное расстояние. Стандартный base model.
++
источник

DP

Defragmented Panda in Natural Language Processing
Sergey Dulikov
зафайнтюнить в случае гпт-2
https://transformer.huggingface.co/

gpt2 тоже достаточно скормить текст-затравку по-моему
источник

DD

David Dale in Natural Language Processing
Bogdan Salyp
Ребят, что посоветуете для similarity предложений на русском языке? Попробовал ru2, но в нем нет векторов. Пробовал sent2vec, но нет предобученной модели на русском. В StanfordNLP Similarity очевидными способами посчитать нельзя. В deeppavlov дискретные значения 0 и 1, а нужно на отрезке. Часа четыре сижу, пока не очень успешно :с

В поиске по старым сообщениям беседы не нашел готовый инструмент
USE и Laser - мультиязычные энкодеры предложений, поддерживающие в т.ч. русский.
А ещё можно взять в диппавлове SentenceBERT - это BERT, пофайнтюненный на NLI, и он тоже неплохие эмбеддинги предложений даёт.
Fasttext действительно на удивление сильный бейзлайн, но он даже теоретически порядок слов не учитывает, а эти ребята хотя бы пытаются. На каких-то задачах это может быть важно.
источник

M

Mishanya in Natural Language Processing
Bogdan Salyp
Ребят, что посоветуете для similarity предложений на русском языке? Попробовал ru2, но в нем нет векторов. Пробовал sent2vec, но нет предобученной модели на русском. В StanfordNLP Similarity очевидными способами посчитать нельзя. В deeppavlov дискретные значения 0 и 1, а нужно на отрезке. Часа четыре сижу, пока не очень успешно :с

В поиске по старым сообщениям беседы не нашел готовый инструмент
Sentence RuBERT есть же https://huggingface.co/DeepPavlov/rubert-base-cased-sentence. Его + косинусное расстояние
источник

BS

Bogdan Salyp in Natural Language Processing
Действительно, спасибо, забыл, что у диппавлова есть по предложениям модель)
источник

МА

Михаил Адьянов... in Natural Language Processing
Здравствуйте, я студент первого курса и получил на проектной практике тему "Автоматическая генерация образовательных тестов на основе семантического анализа текста". Так как в проге я абсолютный ноль данная задача ввела меня в ступор. Можете подсказать, что поможет мне в решении этой задачи(статьи, описания готовых проектов, библиотеки и датасеты)
источник

SK

Sasha Korovii in Natural Language Processing
Такой вопрос, какую лучше метрику использовать inner product или L2 при сравнении двух ембедингов из заголовков новостей (использую FAISS, как для хранения и поиска векторов)?
источник

FF

Futorio Franklin in Natural Language Processing
Sasha Korovii
Такой вопрос, какую лучше метрику использовать inner product или L2 при сравнении двух ембедингов из заголовков новостей (использую FAISS, как для хранения и поиска векторов)?
inner product, он как раз и является характеристикой семантической близости двух эмбеддингов
источник

KL

Kir L in Natural Language Processing
Sasha Korovii
Такой вопрос, какую лучше метрику использовать inner product или L2 при сравнении двух ембедингов из заголовков новостей (использую FAISS, как для хранения и поиска векторов)?
ты сам по докам настроил faiss или есть под рукой хороший туториал? я чет с трудом понимаю, что там использовать для своей задачи и как, туповат (((
источник

SK

Sasha Korovii in Natural Language Processing
Kir L
ты сам по докам настроил faiss или есть под рукой хороший туториал? я чет с трудом понимаю, что там использовать для своей задачи и как, туповат (((
pip3 install faiss-cpu  все нормально
но у меня mac, там ошибки есть связание с версиями omp : os.environ['KMP_DUPLICATE_LIB_OK'] = 'True'
источник

VR

Vladimir R in Natural Language Processing
речь про движение денежных средств?
источник

VR

Vladimir R in Natural Language Processing
это же закрытая финансовая информация
источник

VR

Vladimir R in Natural Language Processing
или есть договор и нужно из него получить строки со счетами и платежами?
источник

VR

Vladimir R in Natural Language Processing
вы так формулируете - есть компания и нужно найти про нее компромат по свей сети, или нужно наоборот подсветить из письменного документа NERы
источник