Телеграмм чат группы natural_language_processing страница 1396

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

3198 membersпожаловаться на группу

2021 August 21

МА

Мария Аверьянова... in Natural Language Processing

Всем добрый день!
Я пытаюсь обучить модель doc2vec на корпусе "тайга". Обучение займет много времени и хочется понимать, в правильном ли направлении мы движемся. В связи с этим вопрос: есть ли такие метрики, которые помогут определить качество модели в процессе обучения?

источник

10:12пожаловаться #1

2021 August 22

DE

Dani El-Ayyass in Natural Language Processing

Друзья, всем привет!) 👋

В рамках работы над задачей текстовой классификации вам скорее всего приходилось сталкиваться с ситуацией, когда перед применением тяжеловесных моделей вы строите бейзлайн TF-IDF + LogReg. 📈

Несмотря на то, что это стандартная модель, ее построение с помощью sklearn занимает определенное количество времени, будь то написание ее с нуля, или копирование и адаптация кода из другого проекта с аналогичной задачей. ⏱️

Я сталкивался не раз с такой ситуацией, поэтому решил написать пайплайн, который позволяет обучить такую модель с помощью всего двух команд:
1. установка пайплайна:

 pip install text-classification-baseline

2. запуск пайплайна:

 text-clf-train --path_to_config config.yaml

Параметризация модели происходит с помощью файла config.yaml.

Надеюсь, что данный пайплайн будет полезен не только мне. 😇

Ссылка не репозиторий: https://github.com/dayyass/text-classification-baseline

GitHub - dayyass/text-classification-baseline: Pipeline for fast building text classification TF-IDF + LogReg baselines.

Pipeline for fast building text classification TF-IDF + LogReg baselines. - GitHub - dayyass/text-classification-baseline: Pipeline for fast building text classification TF-IDF + LogReg baselines.

источник

15:34пожаловаться #2

2021 August 23

d

dePuff in Natural Language Processing

Корпуса для intrinsic evaluation очень маленькие для русского. Не вижу проблемы раз во сколько хочется снимать такую метрику

источник

01:44пожаловаться #3

d

dePuff in Natural Language Processing

Можно надёргать примеров из корпуса парафраз и любоваться как косинусное расстояние уменьшается

PS: обучение doc2vec это вообще не долго :)

источник

01:46пожаловаться #4

AK

Anton K. in Natural Language Processing

есть ли какие-то системы, упрощающие построение autocomplete для поиска?
Есть набор документов в бд, я могу из всех них построить какой-то словарь n-gram например и привести к начальной форме, а далее как искать? как давать некий прогноз, что за словом1 чаще идет слово2 и так далее?

источник

17:26пожаловаться #5

DD

David Dale in Natural Language Processing

Конечно такие системы есть, гуглите "языковые модели".
Бывают как n-граммные, так и нейросетевые; нейросетевые лучше понимают контекст, но сложнее и медленнее.

источник

17:28пожаловаться #6

AK

Anton K. in Natural Language Processing

погуглил
вижу либо простые решения, которые строят индекс в памяти, либо просто теоретические выклададки про то, как считать вероятность следующего токена

источник

17:45пожаловаться #7

иж

игорь жарков... in Natural Language Processing

если я правильно понял то на пальцах это выглядит так: берём свертку и идём фильтром размера 2 по слову и следующему за ним, таким образом получится в конце сколько раз было скажем The cat и оно было чаще чем The supermegacolider

это конечно если я правильно понял мысль товарищей из мфти

источник

17:48пожаловаться #8

B

Banof in Natural Language Processing

🔫 Celina F. Calhoun кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@wadimiusz, @nud1e, @Nikitini, @dzhkn42, Petr Maishev
При поддержке Золота Бородача

источник

19:40пожаловаться #9

9

9dogs🐍 in Natural Language Processing

Видел в статьях, что файнтьюнят на виках типа https://overwatch.fandom.com/wiki/Overwatch_Wiki

Overwatch Wiki

источник

20:42пожаловаться #10

VS

Vladimir Shitov in Natural Language Processing

Спасибо! А у таких вики есть апи или нужно парсить текст?

источник

21:39пожаловаться #11

VS

Vladimir Shitov in Natural Language Processing

Посмотрел, но не нашёл что-то

источник

21:41пожаловаться #12

d

dePuff in Natural Language Processing

Хочу поиграться с ruGPT-3

В общих чертах файнтюнинг был понятен, пока я не открыл датасет из официального примера (на скрине)

Что здесь собственно происходит? :)

Я ожидал формата для тренировки вроде:

<s>Тема: [subj_here] \n Сочинение: [text_about_subj_here]</s>

Почему в трейне каша (на мой взгляд), но оно должно работать?

источник

22:01пожаловаться #13

BS

Bogdan Salyp in Natural Language Processing

Ну, в идеале должен быть один формат
А можно ссылку на пример?

источник

22:05пожаловаться #14

d

dePuff in Natural Language Processing

Я начал со ссылки: https://github.com/sberbank-ai/ru-gpts

На этой страничке перешёл по второй ссылке "finetuning" на колаб: https://colab.research.google.com/github/sberbank-ai/ru-gpts/blob/master/examples/Finetune_RuGPTs_with_HF.ipynb

(Первый ноутбук не устроил словами: ну вы данные приготовьте и опишите их в текстовом файлике, а мне хотелось разобраться как оно валидируется)

Ну и собственно из ноутбука train.txt: https://www.dropbox.com/s/oa3v9c7g9bp40xw/train.txt?dl=0

источник

22:09пожаловаться #15

BS

Bogdan Salyp in Natural Language Processing

Рискну предположить, что такой формат обучения сработает, потому что gpt не seq2seq модель, а генеративная, то есть за один свой “шаг” она берет исходное предложение и добавляет один токен. Потом как исходное берет предложение с добавленным токеном и добавляет ещё один токен. Так что предложения в датасете без префикса в виде “тема: <тема>”, а с префиксом “сочинение:” учат модель, что может быть в сочинении (например, какая структура), не основываясь на теме перед ней

источник

22:10пожаловаться #16

BS

Bogdan Salyp in Natural Language Processing

Но вообще выглядит странно, сейчас посмотрю код

источник

22:11пожаловаться #17

d

dePuff in Natural Language Processing

Логично, но стало страшнее от предстоящих игрищ

источник

22:13пожаловаться #18

BS

Bogdan Salyp in Natural Language Processing

А, с этого репозитория начинал изучение гпт
Вкратце, не рекомендую его, в нем много проблем) Например, в файле generate_trainsformers.py нет ничего про beam_search, только семплингом, и таких странностей достаточно
Я бы рекомендовал посмотреть в сторону стандартного Trainer и Data Collator (https://huggingface.co/transformers/main_classes/data_collator.html)

Data Collator

State-of-the-art Natural Language Processing for PyTorch and TensorFlow 2.0. Transformers provides thousands of pretrained models to perform tasks on texts such as classification, information extraction, question answering, summarization, translation, text generation, etc in 100+ languages. Its aim is to make cutting-edge NLP easier to use for everyone

источник

22:14пожаловаться #19

BS

Bogdan Salyp in Natural Language Processing

https://towardsdatascience.com/fine-tune-a-non-english-gpt-2-model-with-huggingface-9acc2dc7635b вот тут самый простой пример

Fine-tune a non-English GPT-2 Model with Huggingface

Fine-tune non-English, German GPT-2 model with Huggingface on German recipes. Using their Trainer class and Pipeline objects

источник

22:16пожаловаться #20