Телеграмм чат группы natural_language

Size: a a a

Natural Language Processing

2021 February 08

Хм, я думал у них одна модель, вот эта https://huggingface.co/sberbank-ai/sbert_large_nlu_ru
А где найти конкретные дообученные? На их гитхабе нет таких

huggingface.co

sberbank-ai/sbert_large_nlu_ru · Hugging Face

We’re on a journey to solve and democratize artificial intelligence through natural language.

sentence-transformers например

Голые Берты меня торкнули
Там у всего 0.85

источник

09:42пожаловаться #1

dePuff in Natural Language Processing

Sebastian Pereira

Мне кажется, что сам инструмент косинусный близости не походит для нормальной проверки семантического сходства.

Если триплет лоссом учить на близость, то подходит

источник

09:43пожаловаться #2

Sebastian Pereira in Natural Language Processing

David Dale

Возможно, для различения антонимов нужна модель, обученная на перевод, перефразирование, или другой сигнал, в явном виде подчёркивающий семантические различия.
Если нужны эмбеддинги предложений, я рекомендую USE или Laser (обе мультиязычные и есть русский)

Да, мы пробовали Bert, Laser, Muse - почти одинаковые результаты.

источник

09:43пожаловаться #3

dePuff in Natural Language Processing

Близость, это вообще растяжимое понятие

источник

09:44пожаловаться #4

Sebastian Pereira in Natural Language Processing

dePuff

Если триплет лоссом учить на близость, то подходит

Интересно, а есть где посмотреть подробней? В чем отличие и как такой эффект достигается?

источник

09:44пожаловаться #5

David Dale in Natural Language Processing

Bogdan Salyp

Да, но это SBERT, которые по идее должны такое ловить

Теоретически, в идеале - да.
По факту SBERT - это обычный BERT, немножко пофайнтюненный на задачу NLI. Я подозреваю, что датасет SNLI, который там использовался, недостаточно большой, чтобы нормально выучить различия даже в базовых антонимах типа "хорошо-плохо".

источник

09:44пожаловаться #6

dePuff in Natural Language Processing

Sebastian Pereira

Интересно, а есть где посмотреть подробней? В чем отличие и как такой эффект достигается?

Учим простенький слой поверх Берта (например с 50ю выходами) выдавать схожие вектора для того, что мы считаем близким

источник

09:45пожаловаться #7

David Dale in Natural Language Processing

dePuff

Если триплет лоссом учить на близость, то подходит

SBERT так и учился, но у меня есть ощущение, что он недоученный.

источник

09:45пожаловаться #8

dePuff in Natural Language Processing

Тот же sentence transformers посмотреть

источник

09:46пожаловаться #9

dePuff in Natural Language Processing

David Dale

SBERT так и учился, но у меня есть ощущение, что он недоученный.

Мне тоже не зашёл

источник

09:46пожаловаться #10

dePuff in Natural Language Processing

По итогу, я из fasttext своего собрал лучше и быстрее, по аналогичной схеме, но ещё копаю в этом направлении

источник

09:46пожаловаться #11

Sebastian Pereira in Natural Language Processing

David Dale

SBERT так и учился, но у меня есть ощущение, что он недоученный.

Можно попробовать обучить с нуля на корпусе относящемся только к одному домену и проверить там.

источник

09:47пожаловаться #12

Sebastian Pereira in Natural Language Processing

Попробую.

источник

09:47пожаловаться #13

dePuff in Natural Language Processing

Чтоб я так жил, с нуля Берт учить чисто на посмотреть )

источник

09:47пожаловаться #14

Igor Sitdikov in Natural Language Processing

Добрый день, не могли бы подсказать русские модели NER, желательно под джаву?

источник

09:49пожаловаться #15

Bogdan Salyp in Natural Language Processing

dePuff

Чтоб я так жил, с нуля Берт учить чисто на посмотреть )

Вот вот) Поэтому тыкаю уже готовые инструменты

источник

09:49пожаловаться #16

David Dale in Natural Language Processing

Sebastian Pereira

Можно попробовать обучить с нуля на корпусе относящемся только к одному домену и проверить там.

Не, совсем с нуля - это жёстко.
Как бы учил его я:
- Взял бы русский BERT или даже SBERT за основу
- Взял бы какой-нибудь большой датасет с парами парафраз (если для нужного домена их нет, нагенерировал бы их переводом туда-сюда)
- Обучался бы на том же триплет лоссе, но отрицательные примеры бы брал не рандомно, а адверсариально (ближайшие по всё той же косинусной близости), иначе задача слишком лёгкая

источник

09:50пожаловаться #17

dePuff in Natural Language Processing

Bogdan Salyp

Вот вот) Поэтому тыкаю уже готовые инструменты

Глянь соревнование от телеграмма по кластеризации новостей

Я оттуда часть идей вытащил

источник

09:50пожаловаться #18

Sebastian Pereira in Natural Language Processing

dePuff

Чтоб я так жил, с нуля Берт учить чисто на посмотреть )

На не гигантском датасете “10~20gb” задача решаемая в в AWS хотя и в 90% случаев бесполезная.