Size: a a a

Natural Language Processing

2021 July 26

K

Kutuz4 in Natural Language Processing
Я использую файл pretrain_transformers от сбера. Вопрос в том, пытался ли кто-то его самовольно модифицировать
источник

DD

David Dale in Natural Language Processing
Можно написать свой датасет для потокового чтения с диска (или поискать готовые такие решения), но я не пробовал.
Я файнтюнил буквально на мегабайте)
(ну ладно, максимум на сотнях мегабайт текста)
источник
2021 July 27

FF

Futorio Franklin in Natural Language Processing
Я со временем понял, что datasets просто не нужен, большую часть можно спокойно реализовать в своих утилитах, это даёт возможность проще изменять логику загрузки/обработки данных

UPD. Я перепутал datasets от hf с torchtext. Но, как мне кажется, суть принципиально не поменялась
источник

A

Anton in Natural Language Processing
Опыт или пример обработки большого json/csv файла есть?
источник

D

Dmitry in Natural Language Processing
Большого настолько что не влезает в память?
источник

D

Dmitry in Natural Language Processing
Поточные парсеры вам в помощь
источник

A

Anton in Natural Language Processing
Да, 100 гб
источник

FF

Futorio Franklin in Natural Language Processing
Я пробовал в классе датасета семплировать из id-шников, а потом в collate_fn батч из них маппил в данные из sqlite3 базы
источник

FF

Futorio Franklin in Natural Language Processing
Код, к сожалению не сохранился и это довольно медленно было
источник

FF

Futorio Franklin in Natural Language Processing
В коде к модели TinyBert делали memory mapping numpy массивов с предобработанными данными, но в их реализации при обучении начинает сильно утекать память
источник

FF

Futorio Franklin in Natural Language Processing
источник

SancheZz Мов in Natural Language Processing
Ты можешь сам обучить свой тиник
источник

FF

Futorio Franklin in Natural Language Processing
В процессе
источник

FF

Futorio Franklin in Natural Language Processing
Похоже, что Астрологи объявили неделю дистилляции. Количество маленькости увеличилось втрое
источник

SancheZz Мов in Natural Language Processing
Без хуавей
источник

SancheZz Мов in Natural Language Processing
По статье
источник

SancheZz Мов in Natural Language Processing
Ага
источник

SancheZz Мов in Natural Language Processing
Можно взять Давида берт
источник

SancheZz Мов in Natural Language Processing
И его дотюнить по тини классик
источник

FF

Futorio Franklin in Natural Language Processing
Вы тоже обучаете? Вместе в attention score или только по hidden?
источник