Телеграмм чат группы natural_language

Требовалось адекватное понимание близости (мерял по косинусу). Несмотря на то, что у меня узкий домен, предтренированные дали лучший эффект на downstream задаче. Видимо, в такой постановке тоже экспериментально нужно проверять. Ну, хоть без работы не останемся :)

источник

17:44пожаловаться #10

dePuff in Natural Language Processing

Там ещё минимум некий нужен данных для нормальных векторов

источник

17:45пожаловаться #11

dePuff in Natural Language Processing

Ну и полученные вектора можно свернуть (способ подглядел у мастодонтов этого чата).
Режем каждый текст пополам и поверх векторов триплет лоссом простенький dense

источник

17:46пожаловаться #12

МЕ

Максим Ермаков... in Natural Language Processing

Ага, тоже отличный момент, который я обязательно проверю 👍

источник

17:52пожаловаться #13

dePuff in Natural Language Processing

Гуглить если что соревку по кластеризации новостей от Телеграмм

источник

17:52пожаловаться #14

Nikolay Karelin in Natural Language Processing

Коллеги, подскажите, не встречался ли кому аналог natasha/razdel, только для английского???

(про NLTK с кастомизациями и SpaCy знаю, но для юридических доков их не хватает)

источник

18:03пожаловаться #15

Arsen Plus in Natural Language Processing

Привет! Подскажите, пожалуйста, качество JamSpell для русского языка в бесплатной и платной версиях чем-то отличается?

источник

22:01пожаловаться #16

2021 August 12

Tarf .. in Natural Language Processing

Hello
Is there any tutorial for implementing multi-class text classification using deep learning?

источник

05:57пожаловаться #17

Alexander Fedorenko in Natural Language Processing

Тогда вам стоит обучить классификатор строк вашего исходного текстового файла. От разметки строк не уйти. Обучение строите на парах: строка из вашего текстового файла и соответствующая строка из Бланка(пустой формы) данного документа. После работы классификатора по строкам, вам останется лишь сгруппировать строки в документы

источник

06:09пожаловаться #18

Ivan Stankov in Natural Language Processing

Всем привет! Возможно, кто-то сможет подсказать: пользуюсь HelsinkiNLP для перевода текстов(соответственно, использую MarianTokenizer и MarianMTModel из библиотеки transformers)
Проблема состоит в том, что для перевода сотни текстов нужна целая минута, а у меня таких вот текстов 320к (несколько дней ждать, в общем)

Быть может, кто-то знает как это дело правильно параллелить? С пайтоновским multiprocess не вышло, хотя я пытался инициализировать модельки и внутри потоков, и вне. Замена multiprocess на аналог от PyTorch тоже не помогла.

Как вы думаете, это возможно вообще? Я бы хотел, чтобы, скажем, 16 текстов переводились одновременно. Ресурсы для этого есть) а вот как это правильно собрать — понимания нет.

Если у кого-то есть рабочий пример — дайте знать)

источник

09:24пожаловаться #19

Alexander Fedorenko in Natural Language Processing

А такие варианты вы рассматривали?
https://mcs.mail.ru/easy-k8s/

mcs.mail.ru

Kubernetes одной кнопкой. Управляемые кластеры K8s в облаке | VK Cloud Solutions

Мы сделали Kubernetes доступным для всех с помощью облака. Начните использование технологии быстро и без побочных эффектов.

источник

09:28пожаловаться #20