Какие среды удалось ей побороть?
На среде MinitaurBulletEnv-v0, D4PG без prioritized exp replay в 2 раза уделал DDPG и в 3 раза A2C (по макс награде). По скорости сходимости вообще огонь: D4PG работает всего 2 часа, DDPG 8 часов, A2C почти двое суток. Так что вроде не врут в статье :)