Я со временем понял, что datasets просто не нужен, большую часть можно спокойно реализовать в своих утилитах, это даёт возможность проще изменять логику загрузки/обработки данных
UPD. Я перепутал datasets от hf с torchtext. Но, как мне кажется, суть принципиально не поменялась