Size: a a a

Natural Language Processing

2021 February 08

d

dePuff in Natural Language Processing
Bogdan Salyp
Хм, я думал у них одна модель, вот эта https://huggingface.co/sberbank-ai/sbert_large_nlu_ru
А где найти конкретные дообученные? На их гитхабе нет таких
sentence-transformers например

Голые Берты меня торкнули
Там у всего 0.85
источник

d

dePuff in Natural Language Processing
Sebastian Pereira
Мне кажется, что сам инструмент косинусный близости не походит для нормальной проверки семантического сходства.
Если триплет лоссом учить на близость, то подходит
источник

SP

Sebastian Pereira in Natural Language Processing
David Dale
Возможно, для различения антонимов нужна модель, обученная на перевод, перефразирование, или другой сигнал, в явном виде подчёркивающий семантические различия.
Если нужны эмбеддинги предложений, я рекомендую USE или Laser (обе мультиязычные и есть русский)
Да, мы пробовали Bert, Laser, Muse - почти одинаковые результаты.
источник

d

dePuff in Natural Language Processing
Близость, это вообще растяжимое понятие
источник

SP

Sebastian Pereira in Natural Language Processing
dePuff
Если триплет лоссом учить на близость, то подходит
Интересно, а есть где посмотреть подробней?  В чем отличие и как такой эффект достигается?
источник

DD

David Dale in Natural Language Processing
Bogdan Salyp
Да, но это SBERT, которые по идее должны такое ловить
Теоретически, в идеале - да.
По факту SBERT - это обычный BERT, немножко пофайнтюненный на задачу NLI. Я подозреваю, что датасет SNLI, который там использовался, недостаточно большой, чтобы нормально выучить различия даже в базовых антонимах типа "хорошо-плохо".
источник

d

dePuff in Natural Language Processing
Sebastian Pereira
Интересно, а есть где посмотреть подробней?  В чем отличие и как такой эффект достигается?
Учим простенький слой поверх Берта (например с 50ю выходами) выдавать схожие вектора для того, что мы считаем близким
источник

DD

David Dale in Natural Language Processing
dePuff
Если триплет лоссом учить на близость, то подходит
SBERT так и учился, но у меня есть ощущение, что он недоученный.
источник

d

dePuff in Natural Language Processing
Тот же sentence transformers посмотреть
источник

d

dePuff in Natural Language Processing
David Dale
SBERT так и учился, но у меня есть ощущение, что он недоученный.
Мне тоже не зашёл
источник

d

dePuff in Natural Language Processing
По итогу, я из fasttext своего собрал лучше и быстрее, по аналогичной схеме, но ещё копаю в этом направлении
источник

SP

Sebastian Pereira in Natural Language Processing
David Dale
SBERT так и учился, но у меня есть ощущение, что он недоученный.
Можно попробовать обучить с нуля на корпусе относящемся только к одному домену и проверить там.
источник

SP

Sebastian Pereira in Natural Language Processing
Попробую.
источник

d

dePuff in Natural Language Processing
Чтоб я так жил, с нуля Берт учить чисто на посмотреть )
источник

IS

Igor Sitdikov in Natural Language Processing
Добрый день, не могли бы подсказать русские модели NER, желательно под джаву?
источник

BS

Bogdan Salyp in Natural Language Processing
dePuff
Чтоб я так жил, с нуля Берт учить чисто на посмотреть )
Вот вот) Поэтому тыкаю уже готовые инструменты
источник

DD

David Dale in Natural Language Processing
Sebastian Pereira
Можно попробовать обучить с нуля на корпусе относящемся только к одному домену и проверить там.
Не, совсем с нуля - это жёстко.
Как бы учил его я:
- Взял бы русский BERT или даже SBERT за основу
- Взял бы какой-нибудь большой датасет с парами парафраз (если для нужного домена их нет, нагенерировал бы их переводом туда-сюда)
- Обучался бы на том же триплет лоссе, но отрицательные примеры бы брал не рандомно, а адверсариально (ближайшие по всё той же косинусной близости), иначе задача слишком лёгкая
источник

d

dePuff in Natural Language Processing
Bogdan Salyp
Вот вот) Поэтому тыкаю уже готовые инструменты
Глянь соревнование от телеграмма по кластеризации новостей

Я оттуда часть идей вытащил
источник

SP

Sebastian Pereira in Natural Language Processing
dePuff
Чтоб я так жил, с нуля Берт учить чисто на посмотреть )
На не гигантском датасете “10~20gb” задача решаемая в в AWS хотя и в 90% случаев бесполезная.
источник

d

dePuff in Natural Language Processing
Sebastian Pereira
На не гигантском датасете “10~20gb” задача решаемая в в AWS хотя и в 90% случаев бесполезная.
А сориентируй по времени/цене
источник