Size: a a a

Natural Language Processing

2021 February 06

A

Anton in Natural Language Processing
Yuri Baburov
http://www.dialog-21.ru/evaluation/
здесь пока что есть только 4 из 6 , обычно в феврале все начинаются, т.к. в начале марта уже сдавать задачи...
По кластеризации новостей я уточнил у Ильи Гусева, он сообщил что пока рано. Видимо что-то не готово.
источник
2021 February 07

d

dimakarp1996 in Natural Language Processing
Какой русский опенсорсный text to speech вы считаете самым лучшим?
источник

AK

Alexander Kukushkin in Natural Language Processing
На семинаре по байесовским методам в ML Катя Лобачёва рассказывает про BERT. Традиционный формат для академии: докладчик прочитал кучу статей, отобрал важное, логично пересказал. Трансформер, ELMO, GPT, BERT, что там происходит внутри, контекстуальность эмбеддингов, головы атеншена, трюки из RoBERTa, XLNet, ALBERT, ERNIE, ELECTRA.

Не очень глубоко, зато полно и на русском. Интересен взгляд из другой области, балдеют от количества статей вокруг BERT, объёма ресурсов.

https://www.youtube.com/watch?v=JO-RJRCkLvM
https://www.youtube.com/watch?v=5o8gTP-7xwg
источник

А

Алмаз in Natural Language Processing
Переслано от Алмаз
Здарова ребята, хотел спросить кое что, задали таск в универе никак не могу понять что нужно найти, Natural Language Processing - название курса, можете хотя бы объяснить что нужно найти, если знаете?)
источник

А

Алмаз in Natural Language Processing
Переслано от Алмаз
Такая тема еще есть)
источник

ЯЗ

Я — пехотинец Владим... in Natural Language Processing
Там же написано, что нужно сделать
источник

ЯЗ

Я — пехотинец Владим... in Natural Language Processing
Нужно найти вероятность, что вместо нужного слова пользователь напишет другое. Вероятности в текстовых файлах
источник
2021 February 08

NS

Nikolay V. Shmyrev in Natural Language Processing
dimakarp1996
Какой русский опенсорсный text to speech вы считаете самым лучшим?
Из того, что более-менее натренировано https://habr.com/ru/company/ashmanov_net/blog/528296/

но там технологии отстают от современных, лучше самому натренировать более современную сеть.

и gpu для синтеза надо, медленно
источник

BS

Bogdan Salyp in Natural Language Processing
Сейчас работал над определением схожести предложений, использовал диппавлов и Сбербанковский сберт
Делал косинусное расстояние между либо пуллингом, либо усредненным last state
И что-то сберовская модель странно себя показывает)
источник

BS

Bogdan Salyp in Natural Language Processing
источник

BS

Bogdan Salyp in Natural Language Processing
(никакого хейта в сторону Яндекса, рандомное предложение)
источник

BS

Bogdan Salyp in Natural Language Processing
Может я что-то не так делаю? Или проблемы модели
источник

BS

Bogdan Salyp in Natural Language Processing
Обычное усреднение либо пуллинг
источник

d

dePuff in Natural Language Processing
Bogdan Salyp
Может я что-то не так делаю? Или проблемы модели
Заюзай модель которую тренировали на семантическую близость
источник

DD

David Dale in Natural Language Processing
Bogdan Salyp
Может я что-то не так делаю? Или проблемы модели
А что именно тебе не нравится?
Любая модель, основанная на дистрибутивной семантике (что word2vec, что BERT) соотносит и синонимы, и антонимы с очень похожими векторами, т.к. они часто встречаются в одних и тех же контекстах.
источник

BS

Bogdan Salyp in Natural Language Processing
Хм, я думал у них одна модель, вот эта https://huggingface.co/sberbank-ai/sbert_large_nlu_ru
А где найти конкретные дообученные? На их гитхабе нет таких
источник

BS

Bogdan Salyp in Natural Language Processing
David Dale
А что именно тебе не нравится?
Любая модель, основанная на дистрибутивной семантике (что word2vec, что BERT) соотносит и синонимы, и антонимы с очень похожими векторами, т.к. они часто встречаются в одних и тех же контекстах.
Да, но это SBERT, которые по идее должны такое ловить
источник

DD

David Dale in Natural Language Processing
Возможно, для различения антонимов нужна модель, обученная на перевод, перефразирование, или другой сигнал, в явном виде подчёркивающий семантические различия.
Если нужны эмбеддинги предложений, я рекомендую USE или Laser (обе мультиязычные и есть русский)
источник

BS

Bogdan Salyp in Natural Language Processing
Хм, не пробовал USE на русском, спасибо, чекну)
источник

SP

Sebastian Pereira in Natural Language Processing
Bogdan Salyp
Хм, я думал у них одна модель, вот эта https://huggingface.co/sberbank-ai/sbert_large_nlu_ru
А где найти конкретные дообученные? На их гитхабе нет таких
Мне кажется, что сам инструмент косинусный близости не походит для нормальной проверки семантического сходства.
источник