Всем привет! У меня по результатам экспериментов с NeMo от nvidia базовые вопросы возникли, надеюсь кто-то сможет помочь с ответами. Пытаюсь дотренировать английскую модель расстановки пунктуации, которая в свою очередь дотренирована с distilbert. Дотренировываю на испанский язык. Пробовал брать tatoeba предложения, там у испанского вышло порядка 300К строк, при тренировке лосс уменьшается, а вальдейшен лосс не меняется. Если беру больший датасет, 3М строк, то памяти на gpu не хватает. Взял вот 1М строк, опять val loss за 15 эпох как был 0.2 - 0.25, так и остался. Что я делаю не так?