
Теперь пришло время делать так же, но уже с видео – ниже видео которое мой мозг отказывается понимать и на котором я буквально не могу сфокусироваться. Это нейронка DVD-GAN (Респект авторам за название) генерирует короткие видео-сцены 256х256 пикселей на основе такого же датасета, что использовал, например, BigGan.
Отдельно хочется отметить (что просто не помещается у меня в голове), нейронка не генерирует для видео кадр за кадром в виде картинок, а потом склеивает это все в видео, DVD-GAN генерирует ВСЮ СЦЕНУ СРАЗУ, то есть сразу пару секунд видео.
Вот тут есть видео, где довольно клево рассказано как она устроена на английском (кроме того, как всегда советую подписаться на канал автора):
https://youtu.be/IMZkLVBhcig
А тут документ с исследованием и формулами:
https://arxiv.org/abs/1907.06571