Телеграмм чат группы natural_language

Всем привет! Прошу подкинуть идею)) Нужно разбить 1500 неразмеченных замечаний на классы. Всего встречается порядка 15 основных проблем. Как лучше это сделать?

источник

10:33пожаловаться #6

Toemik Mnemonic in Natural Language Processing

поиск cos расстояний между замечанием и 15 тью наборами ключевых слов. Для сервиса не рекомендую, поддерживать такое невозможно будет. Так что стандартные алгоритмы классификации на какой ни будь бертообразной модели,

источник

10:43пожаловаться #7

АВ

Аркадий Вьюгов... in Natural Language Processing

Наташа с этим помочь может?

источник

10:44пожаловаться #8

Toemik Mnemonic in Natural Language Processing

хз, наташу не трогал. но думаю наверняка может. я бы предпочел hugeface's transformers или spacy на BERT с scikit-learn или keras.так то нужен токенизатор и трансформер в нужную модель и DS тулкит какой то. про наташу тут есть кому рассказать, но это точно не я) на kaggle попробуй найти подходящую тетрадку и на ее основе реши задачу

источник

10:48пожаловаться #9

АВ

Аркадий Вьюгов... in Natural Language Processing

Спасибо, стало заметно яснее!!!

источник

10:49пожаловаться #10

Alexander Fedorenko in Natural Language Processing

ИМХО самое простое или tfidf или ембеддинги, затем кластеризируйте (простых вариантов с десяток) и посчитайте по типу мешка слов ключевые слова для получившихся кластеров
UPD ключевые слова - те которые наиболее часто)

источник

10:53пожаловаться #11

АВ

Аркадий Вьюгов... in Natural Language Processing

Спасибо!!!!

источник

10:54пожаловаться #12

Ivan Stankov in Natural Language Processing

Ребят, хочу использовать rubert-base-cased на трансформерах для классификации, но нигде не могу найти пример использования( Может кто поделиться какими-то материалами?

источник

13:12пожаловаться #13

n i in Natural Language Processing

https://simpletransformers.ai/docs/classification-models/

источник

13:14пожаловаться #14

Toemik Mnemonic in Natural Language Processing

https://huggingface.co/transformers/training.html

huggingface.co

Fine-tuning a pretrained model

State-of-the-art Natural Language Processing for PyTorch and TensorFlow 2.0. Transformers provides thousands of pretrained models to perform tasks on texts such as classification, information extraction, question answering, summarization, translation, text generation, etc in 100+ languages. Its aim is to make cutting-edge NLP easier to use for everyone

источник

13:19пожаловаться #15

МЕ

Максим Ермаков... in Natural Language Processing

Привет! Скажите, где можно посмотреть, как разрабатываются spaCy модели для русского?

источник

15:59пожаловаться #16

2021 August 31

Dmitry in Natural Language Processing

Коллеги, у кого-нибудь было такое при использовании FastText:
env/lib/python3.8/site-packages/fasttext_pybind.cpython-38-x86_64-linux-gnu.so: undefined symbol: _ZNSt15__exception_ptr13exception_ptr10_M_releaseEv

источник

11:49пожаловаться #17

Nadia in Natural Language Processing

Добрый день, коллеги, у меня есть два вопроса.
1) кому-нибудь когда-нибудь попадался корпус для question answering на основе текстов учебников (желательно STEM, лучше англоязычный)? И кто-то пытался когда-нибудь делать наоборот – не отвечать на вопросы, а наоборот их генерировать на основе текста? Видела пару статей, но хотелось бы спросить живых людей про плюсы, минусы, подводные камни.
2) и ближе к теме: ищу маленький корпус для классификации (search clarification) типа MIMICS, но на русском. Вдруг завалялся где?

источник

12:00пожаловаться #18

David Dale in Natural Language Processing

1.2) я обучал t5 задавать вопросы по тексту (SberQUAD), работает сносно, а если аугментировать данные и ещё пофайнтюнить, думаю, будет совсем хорошо.

источник

12:02пожаловаться #19

Nadia in Natural Language Processing

О, спасибо огромное! Это примерно то, что нужно, изучу! Мне их надо будет разбить еще по уровню сложности, но это уже эвристикой какой-нибудь :)

источник

12:05пожаловаться #20