Телеграмм чат группы bigdata

Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

4280 membersпожаловаться на группу

2020 June 05

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

н е б у д е т там vocabа, он его там не найдёт

источник

22:13пожаловаться #1

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Где там?)) Если вы желаете русскоязычную модель автора использовать, вам придётся использовать его код. Если вы хотите англоязычную GPT2 от Transformers использовать, он вам подсказал, как это сделать в файле run_generation.py

источник

22:15пожаловаться #2

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

вот специальный аргумент для тыканья

---> 13 tokenizer_ru = GPT2Tokenizer.from_pretrained('./all/unfreeze_all/m_checkpoint-3364613/')

1 frames
/usr/local/lib/python3.6/dist-packages/transformers/tokenization_utils.py in _from_pretrained(cls, pretrained_model_name_or_path, *init_inputs, **kwargs)
   1012                     ", ".join(s3_models),
   1013                     pretrained_model_name_or_path,
-> 1014                     list(cls.vocab_files_names.values()),
   1015                 )
   1016             )

OSError: Model name './all/unfreeze_all/m_checkpoint-3364613/' was not found in tokenizers model name list (gpt2, gpt2-medium, gpt2-large, gpt2-xl, distilgpt2). We assumed './all/unfreeze_all/m_checkpoint-3364613/' was a path, a model identifier, or url to a directory containing vocabulary files named ['vocab.json', 'merges.txt'] but couldn't find such vocabulary files at this path or url.

источник

22:17пожаловаться #3

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

я им буду тыкать пока не будет понимания того что мне нужны ['vocab.json', 'merges.txt']

источник

22:18пожаловаться #4

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Это ваш неправильный код, поэтому выдаётся ошибка.

источник

22:18пожаловаться #5

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

нет, это неадаптированность модели под transformers

источник

22:19пожаловаться #6

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

а точнее токенизатора

источник

22:19пожаловаться #7

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Существует несколько реализаций алгоритма BPE 😊 Все они идиоты, и не "адаптировали" свои токенизаторы под Transformers))

источник

22:20пожаловаться #8

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Даже если бы автор сделал бы свою модель с использованием токенизатора от Трансформеров, у вас всё равно ничего не вышло бы. Обэ

источник

22:22пожаловаться #9

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Об этом я писал в самом начале - каждый токенизатор создаёт свои токены и свои индексы, и модели нужны только те индексы, на которых она училась, иначе ничего хороше не получится))

источник

22:22пожаловаться #10

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

окей, как сгенерить новый без тренировки?

источник

22:22пожаловаться #11

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Тем более, как вы хотите всунуть в модель, обученную на английских текстах, русские?

источник

22:23пожаловаться #12

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

его модель на русских текстах обучена

источник

22:23пожаловаться #13

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Набрать датасет, передать токенизатору и научить его. А потом научить модель

источник

22:23пожаловаться #14

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

она уже п р е д о б у ч е н а

источник

22:23пожаловаться #15

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Да, его модель обучена на русских текстах, она использует свой токенизатор. вот её берите и используйте с её токенизатором. В чём проблема-то?

источник

22:24пожаловаться #16

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Den

вот специальный аргумент для тыканья

---> 13 tokenizer_ru = GPT2Tokenizer.from_pretrained('./all/unfreeze_all/m_checkpoint-3364613/')

1 frames
/usr/local/lib/python3.6/dist-packages/transformers/tokenization_utils.py in _from_pretrained(cls, pretrained_model_name_or_path, *init_inputs, **kwargs)
   1012                     ", ".join(s3_models),
   1013                     pretrained_model_name_or_path,
-> 1014                     list(cls.vocab_files_names.values()),
   1015                 )
   1016             )

OSError: Model name './all/unfreeze_all/m_checkpoint-3364613/' was not found in tokenizers model name list (gpt2, gpt2-medium, gpt2-large, gpt2-xl, distilgpt2). We assumed './all/unfreeze_all/m_checkpoint-3364613/' was a path, a model identifier, or url to a directory containing vocabulary files named ['vocab.json', 'merges.txt'] but couldn't find such vocabulary files at this path or url.

*тык*

источник

22:24пожаловаться #17

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Это не аргумент, а ваше непонимание

источник

22:24пожаловаться #18

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

это не моё непонимание а нужда в конвертации или вовсе в реверсе из готовой модели

источник

22:26пожаловаться #19

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Я не понимаю, что такое конвертация... Модели нужны те индексы, на которых она училась

источник

22:27пожаловаться #20