Size: a a a

Natural Language Processing

2021 September 07

SK

Sergey Kamenshchikov in Natural Language Processing
Hi :) NLP startup is looking for co-founder with 2+ years experience in NLP/ML. MVP, Lean culture, great team and first customers. We enter accelerator in Porto with perspective of relocation. We look for someone with passion to text generation. Please send me personal message for more details :)
источник

A

Alexander in Natural Language Processing
Всем привет!  Кто сталкивался что тематическое моделирование LatentDirichletAllocation из Sklearn скачет по точности от 50 до 90 по adjusted_rand_score на трех классах от запуска к запуска. Есть какие идеи что с этим делать, кроме random_seed) ?
источник

IP

Igor Panteleev in Natural Language Processing
Спасибо большое за инфу!

Мысль у меня получается такая:
При отсутствие хоть сколько-нибудь значительного размеченного датасета (хотя бы несколько тысяч примеров, но сотнях примерах же нейронки не обучаются?) написать решение на моделях, считай невозможно, а такого датасета нет. А так как при этом известно, что доменная область задачи имеет контролируемый естественный язык, то решение на правилах  может работать отлично.
источник

Е

Егорка in Natural Language Processing
Да, это хорошая задача. Особенно с точки зрения практики, когда нужно её как можно скорее решить, а получить достаточный набор данных для моделей МО проблематично.
Я решал аналогичную задачу в своей работе, используя композиции базовых алгоритмов. Так что, если сделаете инструмент, то можем сравнить результаты.
источник
2021 September 08

A

A in Natural Language Processing
Книга по spacy. Может, кому пригодиться.
источник

A

A in Natural Language Processing
Переслано от A
источник

B

Banof in Natural Language Processing
🔫 @Pishghadam1 кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@wadimiusz, @olegdurandin, @Alf162, @YallenGusev, A, @danilamilo
При поддержке Золота Бородача
источник

AO

Alex Orgish in Natural Language Processing
Есть еще подход weak supervision - размечать данные на правилах, а потом обучать модели на таких разметках. Подробнее -  snorkel.org, snorkel.ai
источник

AO

Alex Orgish in Natural Language Processing
Как минимум - так можно отладку делать для правил: создал правила, разметил данные, обучил модель, запустил модель и правила на тестовых данных и проверил различия. Дальше корректируем правила и опять запускаем все сначала.
источник

AF

Alexander Fedorenko in Natural Language Processing
Спасибо. Пригодится)
источник

OG

Olga Gonch in Natural Language Processing
Коллеги, добрый день! Встречал кто-нибудь открытые базы телефонных разговоров? Интересуют горячие линии, доставка и т.п.
источник

OG

Olga Gonch in Natural Language Processing
Использовать хочу для классификации текстов
источник

A

Andrey in Natural Language Processing
Всем привет. Еще одна задача, где хорошо зашел pipeline с rubert-tiny. Есть набор текстов по времени, с сотню наверное, и непрерывнозначащая величина, которая может быть выше текущего уровня или ниже (классификация).


X = sequence.reshape(-1, 312*history),

pipeline: TruncatedSVD(312) -> LogReg(class_weight="balanced")


показывает шкалящую аккуру на отложенном тесте, около 98%, при дисбалансе 20/80.

хз, конечно датасет роляет, но тоже про качество эмбеддингов. на tfidf acc train/test были ~ 87%.
источник

d

dePuff in Natural Language Processing
Предсказываем по новостям куда курс пойдёт?😅
источник

A

Andrey in Natural Language Processing
процесс социальный, но не денежный и не новости
источник

RI

Radmir Ibragimov in Natural Language Processing
источник

RI

Radmir Ibragimov in Natural Language Processing
Бесплатный курс, 2 дня ещё бесплатно
источник

AC

Anton Cherepkov in Natural Language Processing
А почему вы на таком дисбалансе считаете акураси?
источник

A

Andrey in Natural Language Processing
есть конечно и другие метрики))

но в принципе и аккураси можно считать при дисбалансе.
источник

SS

Shivashis Swain in Natural Language Processing
Anyone good with NLP, I need little help in text data evaluation on language detection use case.
источник