Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

2020 June 05

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
н е  б у д е т там vocabа, он его там не найдёт
источник

IS

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Где там?)) Если вы желаете русскоязычную модель автора использовать, вам придётся использовать его код. Если вы хотите англоязычную GPT2 от Transformers использовать, он вам подсказал, как это сделать в файле run_generation.py
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
вот специальный аргумент для тыканья
---> 13 tokenizer_ru = GPT2Tokenizer.from_pretrained('./all/unfreeze_all/m_checkpoint-3364613/')

1 frames
/usr/local/lib/python3.6/dist-packages/transformers/tokenization_utils.py in _from_pretrained(cls, pretrained_model_name_or_path, *init_inputs, **kwargs)
  1012                     ", ".join(s3_models),
  1013                     pretrained_model_name_or_path,
-> 1014                     list(cls.vocab_files_names.values()),
  1015                 )
  1016             )

OSError: Model name './all/unfreeze_all/m_checkpoint-3364613/' was not found in tokenizers model name list (gpt2, gpt2-medium, gpt2-large, gpt2-xl, distilgpt2). We assumed './all/unfreeze_all/m_checkpoint-3364613/' was a path, a model identifier, or url to a directory containing vocabulary files named ['vocab.json', 'merges.txt'] but couldn't find such vocabulary files at this path or url.
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
я им буду тыкать пока не будет понимания того что мне нужны ['vocab.json', 'merges.txt']
источник

IS

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Это ваш неправильный код, поэтому выдаётся ошибка.
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
нет, это неадаптированность модели под transformers
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
а точнее токенизатора
источник

IS

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Существует несколько реализаций алгоритма BPE 😊 Все они идиоты, и не "адаптировали" свои токенизаторы под Transformers))
источник

IS

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Даже если бы автор сделал бы свою модель с использованием токенизатора от Трансформеров, у вас всё равно ничего не вышло бы. Обэ
источник

IS

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Об этом я писал в самом начале - каждый токенизатор создаёт свои токены и свои индексы, и модели нужны только те индексы, на которых она училась, иначе ничего хороше не получится))
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
окей, как сгенерить новый без тренировки?
источник

IS

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Тем более, как вы хотите всунуть в модель, обученную на английских текстах, русские?
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
его модель на русских текстах обучена
источник

IS

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Набрать датасет, передать токенизатору и научить его. А потом научить модель
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
она уже п р е д о б у ч е н а
источник

IS

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Да, его модель обучена на русских текстах, она использует свой токенизатор. вот её берите и используйте с её токенизатором. В чём проблема-то?
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Den
вот специальный аргумент для тыканья
---> 13 tokenizer_ru = GPT2Tokenizer.from_pretrained('./all/unfreeze_all/m_checkpoint-3364613/')

1 frames
/usr/local/lib/python3.6/dist-packages/transformers/tokenization_utils.py in _from_pretrained(cls, pretrained_model_name_or_path, *init_inputs, **kwargs)
  1012                     ", ".join(s3_models),
  1013                     pretrained_model_name_or_path,
-> 1014                     list(cls.vocab_files_names.values()),
  1015                 )
  1016             )

OSError: Model name './all/unfreeze_all/m_checkpoint-3364613/' was not found in tokenizers model name list (gpt2, gpt2-medium, gpt2-large, gpt2-xl, distilgpt2). We assumed './all/unfreeze_all/m_checkpoint-3364613/' was a path, a model identifier, or url to a directory containing vocabulary files named ['vocab.json', 'merges.txt'] but couldn't find such vocabulary files at this path or url.
*тык*
источник

IS

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Это не аргумент, а ваше непонимание
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
это не моё непонимание а нужда в конвертации или вовсе в реверсе из готовой модели
источник

IS

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Я не понимаю, что такое конвертация... Модели нужны те индексы, на которых она училась
источник