Ты можешь учить мелкими батчами, но мелкие батчи получаются в конечном итоге хуже крупных, а крупные требуют кучи памяти. При мелких батчах сильно много шума получается в пространстве и хесианы сильно дергает, градиентный спуск начинает метаться и часто прилетает мимо глобального минимума, где-нибудь в локальный