Size: a a a

Natural Language Processing

2021 February 14

T

Timur in Natural Language Processing
удваиваю
вообще никогда не понимал прикола torchtext, хотя каждый второй пайплайн из интернетов его использует
как-то легче самому написать кастомный датасет в 20 строчек и не париться
change my mind
источник

KK

Krep Kospit in Natural Language Processing
dePuff
Я бы поставил вопрос как: а что с ним вообще так?

Это конечно классно вызывать
build_vocabulary

над
Field

(мог ошибиться с названием метода), только потом узнаёшь, что этот метод тебе не нужен, возможностей Field тебе мало, а то что тебе нужно очень уродливо реализовывать посредством torchtext
Ага... То есть, пока, до пересмотра torchtext, лучше делать по универсальным шаблонам и реализовать стандартный загрузчик?
источник

d

dePuff in Natural Language Processing
Да уже делать пора )
источник

d

dePuff in Natural Language Processing
Я за кастомный датасет, короче
источник

d

dePuff in Natural Language Processing
Там всё сверхпросто
источник

KK

Krep Kospit in Natural Language Processing
Ок, спасибо. Так даже лучше. Туториалов намного больше, чем по torchtext'у
источник

BS

Bogdan Salyp in Natural Language Processing
Та же история, что и с Trainerом от хаггингфейс - имхо лучше самому лишние два часа потратить и сделать обучение на пайторче (могу быть не прав)
источник

d

dePuff in Natural Language Processing
Мне pytorch lighting нра
источник

KK

Krep Kospit in Natural Language Processing
dePuff
Мне pytorch lighting нра
это как керас?
источник

d

dePuff in Natural Language Processing
Krep Kospit
это как керас?
Да
источник

KK

Krep Kospit in Natural Language Processing
Круто. Только тогда совсем как на чёрный ящик смотришь.
источник

Д

Датасаенсяш... in Natural Language Processing
Всем привет! Кто-нибудь пользовался Small версией отсюда? https://github.com/sberbank-ai/ru-gpts#Usage-ruGPT3Small

По какой-то не понятной причине результат любой генерации состоит из одинаково повторяющихся токенов. У одного у меня так?

Вход:
tensor([[  563,   271, 19515,   451,  2789]])

Выход:
tensor([[  563,   271, 19515,   451,  2789, 203, 203, 203, 203, 203, 203, 203, 203, 203, 203, 203, 203, 203, 203, 203, 203])

Скриншот как использую - вверху.

Загружаю вот так:

from transformers import AutoTokenizer, AutoModelWithLMHead

tokenizer = AutoTokenizer.from_pretrained("sberbank-ai/rugpt3small_based_on_gpt2")

model = AutoModelWithLMHead.from_pretrained("sberbank-ai/rugpt3small_based_on_gpt2")
источник

ni

n i in Natural Language Processing
Датасаенсяш
Всем привет! Кто-нибудь пользовался Small версией отсюда? https://github.com/sberbank-ai/ru-gpts#Usage-ruGPT3Small

По какой-то не понятной причине результат любой генерации состоит из одинаково повторяющихся токенов. У одного у меня так?

Вход:
tensor([[  563,   271, 19515,   451,  2789]])

Выход:
tensor([[  563,   271, 19515,   451,  2789, 203, 203, 203, 203, 203, 203, 203, 203, 203, 203, 203, 203, 203, 203, 203, 203])

Скриншот как использую - вверху.

Загружаю вот так:

from transformers import AutoTokenizer, AutoModelWithLMHead

tokenizer = AutoTokenizer.from_pretrained("sberbank-ai/rugpt3small_based_on_gpt2")

model = AutoModelWithLMHead.from_pretrained("sberbank-ai/rugpt3small_based_on_gpt2")
похоже на pad token, им заполняется "пустое пространство"
источник

Д

Датасаенсяш... in Natural Language Processing
Еще кстати получаю warning:
Setting `pad_token_id` to 50256 (first `eos_token_id`) to generate sequence


Мб дело в нем?
источник

BS

Bogdan Salyp in Natural Language Processing
Это перенос строки
источник

Д

Датасаенсяш... in Natural Language Processing
Оу. А у тебя другой выход. Хоть что-то кроме \n генерирует
источник

BS

Bogdan Salyp in Natural Language Processing
Да, можно поиграть с разными параметрами модели типо temperature
источник

BS

Bogdan Salyp in Natural Language Processing
Но в твоем случае лучше всего вот этот
источник

BS

Bogdan Salyp in Natural Language Processing
repetition_penalty
источник

BS

Bogdan Salyp in Natural Language Processing
или даже лучше no_repeat_ngram_size
источник