не в количестве данных дело, а в том, что нейросеть нашла в этих данных "яркие черты", которые только и использует
И на этих данных она отрабатывает великолепно, а на данных из реального мира уже врет
как-то товарищ учил нейронку отличать заражённые пдф от чистых. в какой-то момент она начала стабильно выдавать 100% верных ответов. оказалось, что одним из параметров, которые он скармливал ей, было расположение. Плохие пдф лежали в одной папке, а хорошие в другой))