Size: a a a

Natural Language Processing

2021 August 21

МА

Мария Аверьянова... in Natural Language Processing
Всем добрый день!
Я пытаюсь обучить модель doc2vec на корпусе "тайга". Обучение займет много времени и хочется понимать, в правильном ли направлении мы движемся. В связи с этим вопрос: есть ли такие метрики, которые помогут определить качество модели в процессе обучения?
источник
2021 August 22

DE

Dani El-Ayyass in Natural Language Processing
Друзья, всем привет!) 👋

В рамках работы над задачей текстовой классификации вам скорее всего приходилось сталкиваться с ситуацией, когда перед применением тяжеловесных моделей вы строите бейзлайн TF-IDF + LogReg. 📈

Несмотря на то, что это стандартная модель, ее построение с помощью sklearn занимает определенное количество времени, будь то написание ее с нуля, или копирование и адаптация кода из другого проекта с аналогичной задачей. ⏱️

Я сталкивался не раз с такой ситуацией, поэтому решил написать пайплайн, который позволяет обучить такую модель с помощью всего двух команд:
1. установка пайплайна: pip install text-classification-baseline
2. запуск пайплайна: text-clf-train --path_to_config config.yaml

Параметризация модели происходит с помощью файла config.yaml.

Надеюсь, что данный пайплайн будет полезен не только мне. 😇

Ссылка не репозиторий: https://github.com/dayyass/text-classification-baseline
источник
2021 August 23

d

dePuff in Natural Language Processing
Корпуса для intrinsic evaluation очень маленькие для русского. Не вижу проблемы раз во сколько хочется снимать такую метрику
источник

d

dePuff in Natural Language Processing
Можно надёргать примеров из корпуса парафраз и любоваться как косинусное расстояние уменьшается

PS: обучение doc2vec это вообще не долго :)
источник

AK

Anton K. in Natural Language Processing
есть ли какие-то системы, упрощающие построение autocomplete для поиска?
Есть набор документов в бд, я могу из всех них построить какой-то словарь n-gram например и привести к начальной форме, а далее как искать? как давать некий прогноз, что за словом1 чаще идет слово2 и так далее?
источник

DD

David Dale in Natural Language Processing
Конечно такие системы есть, гуглите "языковые модели".
Бывают как n-граммные, так и нейросетевые; нейросетевые лучше понимают контекст, но сложнее и медленнее.
источник

AK

Anton K. in Natural Language Processing
погуглил
вижу либо простые решения, которые строят индекс в памяти, либо просто теоретические выклададки про то, как считать вероятность следующего токена
источник

иж

игорь жарков... in Natural Language Processing
если я правильно понял то на пальцах это выглядит так: берём свертку и идём фильтром размера 2 по слову и следующему за ним, таким образом получится в конце сколько раз было скажем The cat и оно было чаще чем The supermegacolider

это конечно если я правильно понял мысль товарищей из мфти
источник

B

Banof in Natural Language Processing
🔫 Celina F. Calhoun кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@wadimiusz, @nud1e, @Nikitini, @dzhkn42, Petr Maishev
При поддержке Золота Бородача
источник

9

9dogs🐍 in Natural Language Processing
Видел в статьях, что файнтьюнят на виках типа https://overwatch.fandom.com/wiki/Overwatch_Wiki
источник

VS

Vladimir Shitov in Natural Language Processing
Спасибо! А у таких вики есть апи или нужно парсить текст?
источник

VS

Vladimir Shitov in Natural Language Processing
Посмотрел, но не нашёл что-то
источник

d

dePuff in Natural Language Processing
Хочу поиграться с ruGPT-3

В общих чертах файнтюнинг был понятен, пока я не открыл датасет из официального примера (на скрине)

Что здесь собственно происходит? :)

Я ожидал формата для тренировки вроде:

<s>Тема: [subj_here] \n Сочинение: [text_about_subj_here]</s>

Почему в трейне каша (на мой взгляд), но оно должно работать?
источник

BS

Bogdan Salyp in Natural Language Processing
Ну, в идеале должен быть один формат
А можно ссылку на пример?
источник

d

dePuff in Natural Language Processing
Я начал со ссылки:  https://github.com/sberbank-ai/ru-gpts

На этой страничке перешёл по второй ссылке "finetuning" на колаб:  https://colab.research.google.com/github/sberbank-ai/ru-gpts/blob/master/examples/Finetune_RuGPTs_with_HF.ipynb

(Первый ноутбук не устроил словами: ну вы данные приготовьте и опишите их в текстовом файлике, а мне хотелось разобраться как оно валидируется)

Ну и собственно из ноутбука train.txt: https://www.dropbox.com/s/oa3v9c7g9bp40xw/train.txt?dl=0
источник

BS

Bogdan Salyp in Natural Language Processing
Рискну предположить, что такой формат обучения сработает, потому что gpt не seq2seq модель, а генеративная, то есть за один свой “шаг” она берет исходное предложение и добавляет один токен. Потом как исходное берет предложение с добавленным токеном и добавляет ещё один токен. Так что предложения в датасете без префикса в виде “тема: <тема>”, а с префиксом “сочинение:” учат модель, что может быть в сочинении (например, какая структура), не основываясь на теме перед ней
источник

BS

Bogdan Salyp in Natural Language Processing
Но вообще выглядит странно, сейчас посмотрю код
источник

d

dePuff in Natural Language Processing
Логично, но стало страшнее от предстоящих игрищ
источник

BS

Bogdan Salyp in Natural Language Processing
А, с этого репозитория начинал изучение гпт
Вкратце, не рекомендую его, в нем много проблем) Например, в файле generate_trainsformers.py нет ничего про beam_search, только семплингом, и таких странностей достаточно
Я бы рекомендовал посмотреть в сторону стандартного Trainer и Data Collator (https://huggingface.co/transformers/main_classes/data_collator.html)
источник

BS

Bogdan Salyp in Natural Language Processing
источник