Всем привет!
Завтра на семинаре выступит Артём Рыжиков.
В 19:00
ШАД, Стенфорд
Доклад будет посвящён статье Action-Dependent Control Variates for Policy Optimization via Stein Identity
Если у вас нет пропуска, не забудьте зарегистрироваться по ссылке до сегодняшней ночи:
https://docs.google.com/forms/d/e/1FAIpQLSd18PGkZuOqkWThJhmNxnmiSVFicnH4YwLVTCOkEkVQV6ZIDg/viewformPolicy Gradient методы показывают высокую эффективность в задачах RL, однако страдают от высокой дисперсии в оценке градиента. Мы рассмотрим метод снижения дисперсии, основанный на уравнении Штейна. Метод вносит в бейзлайн функции зависимость от действий агента, тем самым, обобщая предыдущие подходы.
Было показано значительное повышение сэмпл эфишенси по сравнению с sota Policy Gradient методами.
Мы ещё раз поговорим о том, зачем в а2с value-голова, какое отношение она имеет к дисперсии градиента, а дальше введем более общий и широкий класс несмещенных поправок, порождаемых тождеством Штейна, обобщающий имеющиеся PG подходы (Q-prop, A2C и DDPG), а также модифицируем PPO этим семейством функций.
Приходите, будет интересно!