Всем привет!
На этой неделе семинар пройдет как обычно:
Четверг, ШАД
Аудитория: Стенфорд
19:00
Миша Ягудин расскажет про intristic motivation в exploration'e, а вишенкой на торте будет алгоритм Random Network Distillation.
В сложных средах с отложенной наградой наивный explo (≈ \eps greedy или Gaussian noice) не работает. Intrinsic Motivation (внутренняя мотивация) — это бонусная награда, помогающая агенту исследовать среду. Обычно это information gain, псевдо-счётчик, ошибка предсказания динамики среды.
OpenAI в Random Network Distilation дают награду за ошибку предсказания обучаемой нейронной сети случайно проинициализированной нейронной сети. Этот сравнительно простой и робастный способ позволил получить SOTA на трёх сложных Atari средах; пройти первый уровень и впервые переиграть «среднего человека» в Montezuma's Revenge. Но не всё так радужно: OAI обучали агентов на 2B+ фреймов с помощью PPO.
Intrinsic Motivation:
https://spinningup.openai.com/en/latest/spinningup/keypapers.html#a-intrinsic-motivation
Exploration by Random Network Distillation
https://arxiv.org/abs/1810.12894
Приходите, будет интересно!