Size: a a a

Natural Language Processing

2021 September 21

SancheZz Мов in Natural Language Processing
Прошлогодний
источник

AM

Alex Mak in Natural Language Processing
Тоже в итоге решил этим старым добрым методом не пренебрегать! 🤝
источник

SancheZz Мов in Natural Language Processing
Ща кину ссылку
источник

AM

Alex Mak in Natural Language Processing
О! Супер! Спасибо! Погуглю!
источник

AM

Alex Mak in Natural Language Processing
YouTube
SIBUR Challenge 2020 - Финал соревнования и объявление победителей
3:42 Приветствие участников. Алиса Мельникова - генеральный директор СИБУР Диджитал.
8:34 Объявление победителей с 5 по 2 место по задаче №2 «Продажи».
11:58 1 место по задаче №2 «Продажи». Объявляет Александра Епифановская - владелец продукта Центра аналитики СИБУР Диджитал.
14:55 Ответное слово от Александра Желубенкова – 1 место по задаче №2 «Продажи».
18:07 Объявление победителей с 5 по 2 место по задаче №1 «Сырье.
20:20 1 место по задаче №1 «Сырье». Объявляет Дмитрий Малов - старший владелец продукта Центра аналитики СИБУР Диджитал.
23:07 Ответное слово от Степана Андреева – 1 место по задаче №1 «Сырье».
25:30 Подведение итогов соревнования. Алексей Винниченко - руководитель Центра аналитики СИБУР Диджитал.
33:32 Презентация решений по задаче №2 «Продажи».
1:17:40 Победитель в номинации: “Лучший внешний источник данных по мнению экспертов” по задаче №2. Объявляет Александр Крот - старший владелец продукта Центра аналитики СИБУР Диджитал.
1:20:36 Презентация решений по задаче №1 «Сырье».


***
Website:…
источник

SancheZz Мов in Natural Language Processing
Ага
источник

DD

David Dale in Natural Language Processing
А данные с этого соревнования сохранились у кого-нибудь?
источник

VA

Vitaly Akhmadiev in Natural Language Processing
я бы попробовал в два шага:
1. грязное извлечение сущностей: нер + регулярки
2. уточнение по внешнему сервису, например дадата, который выдает реквизиты компании. запрашивать реквизиты по обеим строкам и уже сравнивать стандартный вывод от сервиса
источник

AM

Alex Mak in Natural Language Processing
источник

D

Daniel in Natural Language Processing
Всем привет!
источник

AM

Alex Mak in Natural Language Processing
А, нет, сами таблички не грузятся у меня. (
источник

D

Daniel in Natural Language Processing
Хочу рассказать про новую библиотеку лемматизации и получения морфологической информации для Java:
https://habr.com/ru/post/578826/
источник

D

Daniel in Natural Language Processing
Если кому нибудь интересно, отвечу на все вопросы здесь)
источник

EE

E E in Natural Language Processing
Какие преимущества по сравнению с Pymorphy2? Анализ происходит со снятием омонимии?
источник

SancheZz Мов in Natural Language Processing
У меня
источник

SancheZz Мов in Natural Language Processing
Дык тут легко скачать
источник

AK

Anton Kolonin in Natural Language Processing
Переслано от Anton Kolonin
Поспойлю тут немножно, подробности будут на AGI-2021, на воркшопе INLP.
Мы продолжаем тестировать разные публичные модели, включая huggingface - для англоязычного сентимент-анализа применительно к криптофинтеху.
Так вот - из семи моделей - наша, из коробки, без файн-тюнига, описанная ниже - лучшая 😊
https://blog.singularitynet.io/aigents-sentiment-detection-personal-and-social-relevant-news-be989d73b381
источник

KS

Konstantin Smith in Natural Language Processing
Если предложенные выше решения в области ML не подойдут или дадут неважный результат, можно попробовать Pullenti, в котором решается, в частности, задача кореференции - отождествление сущностей с учётом разного написания. Если оба списка организаций небольшие (скажем, не более 10000), то можно объединить тексты, подать на вход NER, и если организация есть в обоих списках, то у неё будут как минимум 2 вхождения - в первую половину и во вторую половину текста. Аналогично адреса. Но это навскидку. Для большого эталонного списка орг-й можно использовать класс ExtOntology, предварительно инициализируя его этими организациями, и потом в тексте выделяемые организации будут пытаться привязываться к ним. Для большого количества адресов можно просто брать ToString() - строковое представление сущности, оно получается нормализованным, и как бы адрес ни написать, ToString() будет одинаковым.
источник

AM

Alex Mak in Natural Language Processing
Ммм… интересно! Спасибо за подробный ответ. Посмотрю pullenti тоже.
источник

МЕ

Максим Ермаков... in Natural Language Processing
Коллеги, доброго дня! Написал NER классификатор на BERT эмбеддингах (датасет не крупный, BIO разметка, два вида сущностей), получил неплохое качество на полносвязной сетке. Имеет ли смысл пробовать (Bi)LSTM, или в эмбеддингах контекста достаточно и получится дублирование?
источник