Коллеги, привет!
Завтра
Nikita расскажет про Q-prop — о том, как сделать хоть насколько-нибудь надежным off-policy actor critic. Эта статья получила oral на ICLR 2017.
В некотором смысле это будет продолжение доклада
Артёма о стохастических нодах в вычислительных графах.
Также
Nikita расскажет еще про ряд интересных достижений в RL, связанных с actor-critic (retrace + ACER).
Всем, у кого нет пропуска –
зарегистрируйтесь пожалуйста до сегодняшнего вечера.