RS
GPT2Tokenizer в Hugging face Transformers использует не очень интуитивные аргументы по умолчанию для спец токенов: unk_token =
<|endoftext|>
, bos_token = <|endoftext|>
, eos_token = <|endoftext|>
. 1. Почему они все одинаковые?
2. Если запустить GPT2Tokenizer.from_pretrained() с другими значениями для unk_token & bos_token, то насколько претренированная модель сможет под это подстроиться во время файн-тьюнинга?
Ссылка на доку https://huggingface.co/transformers/model_doc/gpt2.html?highlight=gpt2tokenizer#gpt2tokenizer