Телеграмм чат группы natural_language_processing страница 1388

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

3198 membersпожаловаться на группу

2021 August 17

RV

Roman V in Natural Language Processing

я сейчас возможно буду глупости говорить, дайте знать плиз если так. Где можно почитать про контекстуализацию больших языковых моделей вроде гпт3? Допустим есть такая модель обученная на огромном корпусе, имеющая представление о русском языке как таковом. Скажем, я хочу на основе этой модели сделать чатбота, который будет дообучен на данных из конкретного чатика, чтобы усвоить местный сленг, локальные мемы етц. Это решаемая задача вообще? Как можно доучивая такую мощную модель заставить ее обращать больше внимания на гораздо более мелкий по сравнению с оригинальным корпус с интересующей спецификой?

источник

13:11пожаловаться #1

PV

Peter Vanin in Natural Language Processing

Насколько на правах мимокрокодила могу судить проблема в основном в мощностях обучения моделей такого размера, но если железо есть, то множество мелких косячков которые в соло зализывать трудоемко

источник

14:08пожаловаться #2

DD

David Dale in Natural Language Processing

Переориентация на более маленький корпус происходит автоматически при дообучении на этом корпусе - в этом же и есть смысл дообучения. Тут важно скорее наоборот, не переобучиться под собственный корпус, чтобы большая модель продолжала нормально работать на диалогах, которых в этом маленьком корпусе нет. Отрегулировать степень переобучения проще всего, проверяя, как работает модель раз в K эпох обучения (просто разговаривая с ней).

В этом блокноте есть минималистичный пример дообучения маленькой русской болталки, основанной на T5, на выгрузке чата разработчиков Яндекс.Алисы.
Можно этот код взять за основу, но подставить вместо маленькой болталки модели GPT от Сбера, у которых фантазии побольше.

fine-tune-chatter.ipynb

Colaboratory notebook

источник

14:16пожаловаться #3

RV

Roman V in Natural Language Processing

спасибо большое!

источник

14:16пожаловаться #4

МЕ

Максим Ермаков... in Natural Language Processing

Коллеги, доброго дня!
Подскажите пожалуйста, какую функцию выполяет следующий кусочек сниппета из https://huggingface.co/cointegrated/LaBSE-en-ru ? :

embeddings = model_output.pooler_output

embeddings = torch.nn.functional.normalize(embeddings)

источник

15:54пожаловаться #5

DD

David Dale in Natural Language Processing

Первая строчка берёт эмбеддинг CLS токена; в LaBSE это и есть вектор предложения.
Вторая проецирует его на единичную сферу, т.е. приводит длину вектора к единице. После этого преобразования косинусное сходство векторов равно просто их скалярному произведению, и это удобно

источник

15:57пожаловаться #6

МЕ

Максим Ермаков... in Natural Language Processing

А, теперь понятно, для чего это! Спасибо большое! 🙏

источник

15:58пожаловаться #7

AO

Alex Orgish in Natural Language Processing

Подскажите пожалуйста, для задачи few shot learning для GPT3-моделей (https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api#what-is-few-shot-learning) нужно ли указывать спец токен для разделителя => (sep_token?). Насколько я понял, для ### указывается eos_token.

И может есть готовые best practice для формирования few shot запросов.

источник

20:12пожаловаться #8

2021 August 18

AC

Alexander C in Natural Language Processing

Если кто-то только начинает заниматься NLP возможно будет полезен доклад у нас (@sberloga ):

👨‍🔬 Фарид Хафизов : "Введение в ворд2век"
⌚️ Четверг 19 августа, 17.00 по Москве

источник

11:58пожаловаться #9

N

Nîthïsh Thatîkonda... in Natural Language Processing

источник

12:53пожаловаться #10

N

Nîthïsh Thatîkonda... in Natural Language Processing

Can anyone tell this?

источник

12:53пожаловаться #11

A

Anton in Natural Language Processing

Наткнулся на интересную библиотеку https://github.com/fhamborg/Giveme5W1H
Может кто-то встречал такое в свежем исполнении?

Extraction of the journalistic five W and one H questions (5W1H) from news articles: who did what, when, where, why, and how?

GitHub - fhamborg/Giveme5W1H: Extraction of the journalistic five W and one H questions (5W1H) from news articles: who did what, when, where, why, and how?

Extraction of the journalistic five W and one H questions (5W1H) from news articles: who did what, when, where, why, and how? - GitHub - fhamborg/Giveme5W1H: Extraction of the journalistic five W a...

источник

15:24пожаловаться #12

BS

Bogdan Salyp in Natural Language Processing

Кто-нибудь может пожалуйста подсказать, как выставить длину генерации при обучении в T5? Я использую Seq2SeqTrainer с DataCollatorForSeq2Seq (max_length в нем пробовал, не помогает)

На скриншоте print из compute_metrics, target - текст из датасета нормальной длины, а нейронка выдает слишком короткий prediction (ну и потом, при использовании уже обученной модели видно, что она не умеет заканчивать предложения)

источник

15:41пожаловаться #13

BS

Bogdan Salyp in Natural Language Processing

В T5 не нашел глобального max_length, но есть для конкретных тасок. Но почему-то даже с префиксом “summarize: ” длина генерации при обучении не становится 300

источник

15:42пожаловаться #14

VF

Vadim Fomin in Natural Language Processing

По идее можно прямо при генерации в метод generate передавать параметр max_length

источник

15:43пожаловаться #15

A

Anton in Natural Language Processing

смотри через model.configs.max_length

источник

15:44пожаловаться #16

K

Kutuz4 in Natural Language Processing

Кстати, а кто-то изучал материалы, связанные с YATI?

источник

15:44пожаловаться #17

BS

Bogdan Salyp in Natural Language Processing

Да, в генерации можно, но мне при обучении надо

источник

15:44пожаловаться #18

BS

Bogdan Salyp in Natural Language Processing

Хм, настолько просто? Сейчас чекну

источник

15:44пожаловаться #19

VF

Vadim Fomin in Natural Language Processing

Мне кажется, что при обучении эта хрень не используется вообще

источник

15:44пожаловаться #20