Телеграмм чат группы natural_language

🚀 Онлайн семинар по ML/DS от "SBERLOGA"
⌚ Четверг 26 ноября 17.00 по Москве
👨‍🔬 Александр Абрамов (Сбер) сделает доклад: "Опыт создания sentence bert."

Как использовать metric learning для улучшения качества представления фраз. Хаки и хинты по улучшению представлений: losses, data augmentation, multitask learning.

Доклад основан на работе докладчика и его коллег , описанной в статье:
https://m.habr.com/ru/company/sberdevices/blog/527576/

Ссылка на зум будет позже.

📝 Дополнительная информация в телеграм чате: https://t.me/sberlogadataclub

Хабр

Обучение модели естественного языка с BERT и Tensorflow

Рис. 1. Фразы и предложения в векторном представлении модели естественного языка Обработка естественного языка (Natural Language Processing, NLP) – это область вычислительной лингвистики,...

Коллеги, ссылка на зум в одс в треде nlp , там где анонс семинара , в моменте это четвертое сообщение снизу. Предосторожности из-за атаки зумбомберов

источник

14:26пожаловаться #14

МП

Михаил Притугин... in Natural Language Processing

Всем добрый день!
Кто-то знает хорошие датасеты и подходы для классификации новостей?
Какие-то простые категории спорт/политика/наука и тд

источник

16:10пожаловаться #15

Futorio Franklin in Natural Language Processing

Михаил Притугин

https://github.com/natasha/corus#load_lenta

GitHub

natasha/corus

Links to Russian corpora + Python functions for loading and parsing - natasha/corus

источник

16:13пожаловаться #16

МП

Михаил Притугин... in Natural Language Processing

Спасибо - это прям вау)

источник

16:16пожаловаться #17

Futorio Franklin in Natural Language Processing

Михаил Притугин

Спасибо - это прям вау)

Да на два сообщения выше сам репозиторий

источник

16:17пожаловаться #18

МП

Михаил Притугин... in Natural Language Processing

Может есть какие-то предобученные модели на этом?
Хотелось бы потестить

источник

16:20пожаловаться #19

Alexey Burnakov in Natural Language Processing

@alexkuk , автор Natasha Отказался общаться со мной, после обсуждения ошибок в работе библиотеки. Было заведено issue на githab проекта: https://github.com/natasha/natasha/issues/93 Проблема состоит в том, что библиотека создает весьма значительно количество неправильных normal форм ФИО, о чем было подробно рассказано Автору с приложением текстов, где эта проблема встречается. На нашем корпусе текстов мы ее видим довольно часто. А учитывая, что именно нормальные формы у нас используются для анализа, мы ищем опечатки в ФИО (отличается один символ). В итоге, в корпусе текстов, где присутствуют как минимум два одних и тех же ФИО, и их нормализованные формы отличаются на 1 символ, ложно-положительных срабатываний более 99%. Это те случаи, когда опечатки не было, а была неправильная нормализованная форма. Эти 99% процентов, конечно, не являются универсальной метрикой качества Natsha NER normal. Как указано в issue в ходе тестирования мы выявили, что если в тексте есть как минимум два раза встречается ФИО, и есть отличие на 1 символ, то 99% и более - это ошибка библиотеки. В связи в этим, а также тем фактом, что Автор были выслано для анализа 3200 текстов, содержащих 5631 ошибку - в качестве базы для анализа этого бага (несовершества), весьма странно выглядит то, что он отказался обсуждать решение, сославшись на несовершенство компонентов.

GitHub

NER for persons produces over 99% mistaken forms under specific conditions · Issue #93 · natasha/natasha

Consider a use case, where we need to detect typos in person names that appear in news texts. Example of true positive: " Второй его лентой была криминальная драма "Проклятый путь...

источник

17:43пожаловаться #20