Телеграмм чат группы bigdata

нет никакого формата "transformers"))) Всё это токенизаторы BPE, обученные под каждую модель. Во-первых, у разных трансформаров по-разному обозначаются специальные токены, во-вторых, формирование индексов токенов будет отличаться.

источник

21:58пожаловаться #6

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

вот это и подразумевается под форматом

источник

21:58пожаловаться #7

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

так что 2/3

источник

22:00пожаловаться #8

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Вот я скачал, как написано, файлы:

aws s3 sync --no-sign-request s3://models.dobro.ai/gpt2/ru/unfreeze_all gpt2

И вижу:

config.json
encoder.model
pytorch_model.bin

источник

22:00пожаловаться #9

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

лажу скачали, надо !aws s3 sync --no-sign-request s3://models.dobro.ai/gpt2/ru all

источник

22:01пожаловаться #10

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

и encoder.model != vocab.json

источник

22:01пожаловаться #11

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

И далее автор пишет, посмотрите файл rest.py:

и там мы видим строки 24 и 26:

tokenizer = YTEncoder.from_pretrained(model_path)

model = GPT2LMHeadModel.from_pretrained(model_path)

источник

22:03пожаловаться #12

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Попробуйте сами посмотреть! У вас получится!

источник

22:03пожаловаться #13

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

л а ж у он пишет, мне v o c a b нужен

источник

22:03пожаловаться #14

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

https://github.com/VKCOM/YouTokenToMe/issues/66

GitHub

How to generate vocab.json and merges.txt for YTTM tokenizer? · Issue #66 · VKCOM/YouTokenToMe

I want to train a GPT2 model with new vocabulary. I am following instructions given here: https://github.com/mgrankin/ru_transformers. YTTM tokenizer outputs a yt.model file that has the new vocab....

источник

22:05пожаловаться #15

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Это всё от вашей невнимательности. В ru_transformers/run_generation.py /
Есть такие строчки:

'gpt2': (GPT2LMHeadModel, GPT2Tokenizer),

источник

22:08пожаловаться #16

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Здесь, как видим, уже используется не YTTM, а GPT2Tokenizer от Трансформерз

источник

22:09пожаловаться #17

Den in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

русским языком повторяю в третий раз - мне не нужен yttm, мне нужен vocab.json для transformers для того чтобы просто тупо вставить модель в сам transformers без левых классов

источник

22:10пожаловаться #18

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Напишите код:

GPT2Tokenizer.from_pretrained('path/to/model'), и будет вам vocab))

источник

22:12пожаловаться #19

I Sh in AI / Big Data / Machine Learning 👮‍♂️ Protected by R2D2

Он сам его скачает

источник

22:12пожаловаться #20