Size: a a a

Natural Language Processing

2020 November 25

AK

Aleksey Kudakov in Natural Language Processing
с минимальными допилами
источник

НК

Николай Карпенко... in Natural Language Processing
Aleksey Kudakov
чтоб быстрее... а есть что-то опенсорсное, чем можно такую задачу решить?
да полно на github
источник

НК

Николай Карпенко... in Natural Language Processing
на medium.com tutorialов как грязи
источник

AK

Aleksey Kudakov in Natural Language Processing
полно, поэтому хочется узнать, что-то опробованное в бою 😊
источник

НК

Николай Карпенко... in Natural Language Processing
основная проблема с классификаторами в том, что бой у всех разный 😂
источник

НК

Николай Карпенко... in Natural Language Processing
что хорошо у одного, другому не прокатит
источник

НК

Николай Карпенко... in Natural Language Processing
источник

AK

Aleksey Kudakov in Natural Language Processing
спасибо
источник

НК

Николай Карпенко... in Natural Language Processing
высылай в личку свои данные исходные - поупражняюсь ради интереса
источник

AK

Aleksey Kudakov in Natural Language Processing
у нас NDA, увы 😞
источник

НК

Николай Карпенко... in Natural Language Processing
а значит на saas это можно?)
источник

AW

Alex Wortega in Natural Language Processing
Коллеги, а есть какой то репозиторий с ру датасетами?
источник

FF

Futorio Franklin in Natural Language Processing
Alex Wortega
Коллеги, а есть какой то репозиторий с ру датасетами?
источник
2020 November 26

AC

Alexander C in Natural Language Processing
Alexander Kukushkin
Переслано от Alexander C
🚀 Онлайн семинар по ML/DS от "SBERLOGA"  
⌚ Четверг 26 ноября 17.00 по Москве
👨‍🔬 Александр Абрамов (Сбер)  сделает доклад: "Опыт создания sentence bert."

Как использовать metric learning для улучшения качества представления фраз. Хаки и хинты по улучшению представлений: losses, data augmentation, multitask learning.

Доклад основан на работе докладчика и его коллег , описанной в статье:
https://m.habr.com/ru/company/sberdevices/blog/527576/

Ссылка на зум будет позже.

📝 Дополнительная информация в телеграм чате:  https://t.me/sberlogadataclub
Коллеги, ссылка на зум в одс в треде nlp , там где анонс семинара , в моменте это четвертое сообщение снизу. Предосторожности из-за атаки зумбомберов
источник

МП

Михаил Притугин... in Natural Language Processing
Всем добрый день!
Кто-то знает хорошие датасеты и подходы для классификации новостей?
Какие-то простые категории спорт/политика/наука и тд
источник

FF

Futorio Franklin in Natural Language Processing
Михаил Притугин
Всем добрый день!
Кто-то знает хорошие датасеты и подходы для классификации новостей?
Какие-то простые категории спорт/политика/наука и тд
источник

МП

Михаил Притугин... in Natural Language Processing
Спасибо - это прям вау)
источник

FF

Futorio Franklin in Natural Language Processing
Михаил Притугин
Спасибо - это прям вау)
Да на два сообщения выше сам репозиторий
источник

МП

Михаил Притугин... in Natural Language Processing
Может есть какие-то предобученные модели на этом?
Хотелось бы потестить
источник

AB

Alexey Burnakov in Natural Language Processing
@alexkuk , автор Natasha Отказался общаться со мной, после обсуждения ошибок в работе библиотеки. Было заведено issue на githab проекта: https://github.com/natasha/natasha/issues/93 Проблема состоит в том, что библиотека создает весьма значительно количество неправильных normal форм ФИО, о чем было подробно рассказано Автору с приложением текстов, где эта проблема встречается. На нашем корпусе текстов мы ее видим довольно часто. А учитывая, что именно нормальные формы у нас используются для анализа, мы ищем опечатки в ФИО (отличается один символ). В итоге, в корпусе текстов, где присутствуют как минимум два одних и тех же ФИО, и их нормализованные формы отличаются на 1 символ, ложно-положительных срабатываний более 99%. Это те случаи, когда опечатки не было, а была неправильная нормализованная форма.  Эти 99% процентов, конечно, не являются универсальной метрикой качества Natsha NER normal. Как указано в issue в ходе тестирования мы выявили, что если в тексте есть как минимум два раза встречается ФИО, и есть отличие на 1 символ, то 99% и более - это ошибка библиотеки. В связи в этим, а также тем фактом, что Автор были выслано для анализа 3200 текстов, содержащих 5631 ошибку - в качестве базы для анализа этого бага (несовершества), весьма странно выглядит то, что он отказался обсуждать решение, сославшись на несовершенство компонентов.
источник