Size: a a a

AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

2020 June 05

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
это должно быть на месте
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
vocabа там нет совсем в формате transformers
источник

IS

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Вам для работы из этого всего нужно 3 файла:

config.json
pytorch_model.bin
vocab.json
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Den
vocabа там нет совсем в формате transformers
ещё раз
источник

IS

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
нет никакого формата "transformers"))) Всё это токенизаторы BPE, обученные под каждую модель. Во-первых, у разных трансформаров по-разному обозначаются специальные токены, во-вторых, формирование индексов токенов будет отличаться.
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
вот это и подразумевается под форматом
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
так что 2/3
источник

IS

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Вот я скачал, как написано, файлы:

aws s3 sync --no-sign-request s3://models.dobro.ai/gpt2/ru/unfreeze_all gpt2


И вижу:

config.json
encoder.model
pytorch_model.bin
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
лажу скачали, надо !aws s3 sync --no-sign-request s3://models.dobro.ai/gpt2/ru all
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
и encoder.model != vocab.json
источник

IS

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
И далее автор пишет, посмотрите файл rest.py:

и там мы видим строки 24 и 26:

tokenizer = YTEncoder.from_pretrained(model_path)

model = GPT2LMHeadModel.from_pretrained(model_path)
источник

IS

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Попробуйте сами посмотреть! У вас получится!
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
л а ж у он пишет, мне v o c a b нужен
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
источник

IS

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Это всё от вашей невнимательности. В ru_transformers/run_generation.py /
Есть такие строчки:

'gpt2': (GPT2LMHeadModel, GPT2Tokenizer),
источник

IS

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Здесь, как видим, уже используется не YTTM, а GPT2Tokenizer от Трансформерз
источник

D

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
русским языком повторяю в третий раз - мне не нужен yttm, мне нужен vocab.json для transformers для того чтобы просто тупо вставить модель в сам transformers без левых классов
источник

IS

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Напишите код:

GPT2Tokenizer.from_pretrained('path/to/model'), и будет вам vocab))
источник

IS

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2
Он сам его скачает
источник