Телеграмм чат группы natural_language

Я правильно понимаю, что ограничение чекпоинтов Blenderbot в 128 токенов с HF, по смыслу такое же как у берта на 512 токенов? То есть я не могу расширить максимальную последовательность без переучивания

Моделька: https://huggingface.co/facebook/blenderbot-400M-distill/blob/main/config.json
Похожий вопрос: https://github.com/huggingface/transformers/issues/11868

В конфиге есть параметр max_position_embeddings, который я так понимаю задается перед трейном и не может быть изменен во время инференса, верно?

huggingface.co

config.json · facebook/blenderbot-400M-distill at main

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

источник

13:16пожаловаться #4

Surya Viswanath Pera... in Natural Language Processing

Hi everyone

источник

14:32пожаловаться #5

Surya Viswanath Pera... in Natural Language Processing

I have few doubts in knowledge distillation, came here looking for help

источник

14:32пожаловаться #6

Sergei Korolev in Natural Language Processing

https://www.nohello.com/

Nohello

No Hello

Don't Just Say "Hello" in Chat.

источник

14:34пожаловаться #7

Surya Viswanath Pera... in Natural Language Processing

sorry about that, I am currently learning about Knowledge distillation and I have a small confusion. Is knowledge distillation only applicable on softmax activation function?

источник

14:36пожаловаться #8

David Dale in Natural Language Processing

Not only. You can apply similar mechanisms, for example, with linear activation (and MSE loss).

источник

14:43пожаловаться #9

dePuff in Natural Language Processing

При загрузке модели для интерференса его можно поменять чем то вроде

config = AutoConfig.from_pretrained('model_name', max_position_embeddings=xxx)

И отдачей этого конфига в код загрузки модели

С данной моделью не работал, но у меня был успех с моделью, которая училась на последовательность длиной X, а файнтюнилась на последовательноти длиной X/3

Перебил и заработало достаточно хорошо для моей задачи.

Про данный случай у меня сомнения, но проверить можно достаточно быстро

источник

15:23пожаловаться #10

Bruddah in Natural Language Processing

Всем привет, кто-нибудь работал над задачей извлечения названий юридических документов? Существуют ли какие-нибудь решения из коробки (yargy и тп)?

источник

15:26пожаловаться #11

Artem Snegirev in Natural Language Processing

В оригинальной статье, прямо написано про ограничение в 128 токенов. Не знаю как это просмотрел :)

"Models were trained with maximum context and response lengths set to 128 BPE tokens, and longer examples were truncated."

Если ставить max_position_embeddings больше или меньше, то получаешь runtime error сразу:
https://github.com/huggingface/transformers/issues/11868

GitHub

Wrong BlenderbotConfig description (max_position_embeddings) · Issue #11868 · huggingface/transformers

Hi there, the documentation page for BlenderbotConfiguration has a wrong parameter description https://huggingface.co/transformers/model_doc/blenderbot.html max_position_embeddings (int, optional, ...

источник

16:09пожаловаться #12

Ilya Kazakov in Natural Language Processing

@cointegrated, кажется, где-то видел твою статью про "тиничку". не могу никак найти ссылку. можешь скинуть?

источник

17:14пожаловаться #13

dePuff in Natural Language Processing

https://habr.com/ru/post/562064/

Хабр