Size: a a a

Natural Language Processing

2021 August 11

d

dePuff in Natural Language Processing
Свой домен / своё понимание, что такое сходство
источник

O

Olya in Natural Language Processing
привет! а кто-то использовал openkiwi? для оценки качества перевода?
источник

RP

Rodion Proskuryakov in Natural Language Processing
Может проще будет NER натравить?
источник

ВЧ

Василий Чесалов... in Natural Language Processing
Мне кажется, здесь ключевое слово "со всеми". Речь ведь идет о персональных данных? Классификатор сможет найти "все" NER?
источник

RP

Rodion Proskuryakov in Natural Language Processing
Сомневаюсь, что найдется "полный" список, а применить готовый ner проще, чем искать список с высокой полнотой
источник

G

Gwyn_ny in Natural Language Processing
Посмотрим, что там Наташа умеет:)
источник

G

Gwyn_ny in Natural Language Processing
Спасибо
источник

ВЧ

Василий Чесалов... in Natural Language Processing
Учитывая новые тенденции называть детей экзотическими, иностранными и т. п. именами, полный список вряд ли возможен.
источник

G

Gwyn_ny in Natural Language Processing
Не, у меня только те кому 18+, так что думаю, что наташа справится
источник

МЕ

Максим Ермаков... in Natural Language Processing
Требовалось адекватное понимание близости (мерял по косинусу). Несмотря на то, что у меня узкий домен, предтренированные дали лучший эффект на downstream задаче. Видимо, в такой постановке тоже экспериментально нужно проверять. Ну, хоть без работы не останемся :)
источник

d

dePuff in Natural Language Processing
Там ещё минимум некий нужен данных для нормальных векторов
источник

d

dePuff in Natural Language Processing
Ну и полученные вектора можно свернуть (способ подглядел у мастодонтов этого чата).
Режем каждый текст пополам и поверх векторов триплет лоссом простенький dense
источник

МЕ

Максим Ермаков... in Natural Language Processing
Ага, тоже отличный момент, который я обязательно проверю 👍
источник

d

dePuff in Natural Language Processing
Гуглить если что соревку по кластеризации новостей от Телеграмм
источник

NK

Nikolay Karelin in Natural Language Processing
Коллеги, подскажите, не встречался ли кому аналог natasha/razdel, только для английского???

(про NLTK с кастомизациями и SpaCy знаю, но для юридических доков их не хватает)
источник

AP

Arsen Plus in Natural Language Processing
Привет! Подскажите, пожалуйста, качество JamSpell для русского языка в бесплатной и платной версиях чем-то отличается?
источник
2021 August 12

T.

Tarf .. in Natural Language Processing
Hello
Is there any tutorial for implementing multi-class text classification using deep learning?
источник

AF

Alexander Fedorenko in Natural Language Processing
Тогда вам стоит обучить классификатор строк вашего исходного текстового файла. От разметки строк не уйти. Обучение строите на парах: строка из вашего текстового файла и соответствующая строка из Бланка(пустой формы)  данного документа. После работы классификатора по строкам, вам останется лишь сгруппировать строки в документы
источник

IS

Ivan Stankov in Natural Language Processing
Всем привет! Возможно, кто-то сможет подсказать: пользуюсь HelsinkiNLP для перевода текстов(соответственно, использую MarianTokenizer и MarianMTModel из библиотеки transformers)
Проблема состоит в том, что для перевода сотни текстов нужна целая минута, а у меня таких вот текстов 320к (несколько дней ждать, в общем)

Быть может, кто-то знает как это дело правильно параллелить? С пайтоновским multiprocess не вышло, хотя я пытался инициализировать модельки и внутри потоков, и вне. Замена multiprocess на аналог от PyTorch тоже не помогла.

Как вы думаете, это возможно вообще? Я бы хотел, чтобы, скажем, 16 текстов переводились одновременно. Ресурсы для этого есть) а вот как это правильно собрать — понимания нет.

Если у кого-то есть рабочий пример — дайте знать)
источник

AF

Alexander Fedorenko in Natural Language Processing
А такие варианты вы рассматривали?
https://mcs.mail.ru/easy-k8s/
источник