на самом деле просто херово построеная\обученная модель, чаще всего учили на картинках по запросам из гугла
и так как нейронке не обьяснили, нормально, что от нее хотят, она просто позапоминала как можно больше фотографий, в голове обьединив со словами те образі, которые на входных данных встречались чаще всего (например, на Delfi dev - скрины иде). И так как их было много, она пытается миксовать их, как может, добавляя схожие образы, в итоге получается вот такая каша