Телеграмм чат группы theoreticalrl страница 129

Всем привет!

На этой неделе семинар пройдет как обычно:
Четверг, ШАД
Аудитория: Стенфорд
19:00

Миша Ягудин расскажет про intristic motivation в exploration'e, а вишенкой на торте будет алгоритм Random Network Distillation.

В сложных средах с отложенной наградой наивный explo (≈ \eps greedy или Gaussian noice) не работает. Intrinsic Motivation (внутренняя мотивация) — это бонусная награда, помогающая агенту исследовать среду. Обычно это information gain, псевдо-счётчик, ошибка предсказания динамики среды.

OpenAI в Random Network Distilation дают награду за ошибку предсказания обучаемой нейронной сети случайно проинициализированной нейронной сети. Этот сравнительно простой и робастный способ позволил получить SOTA на трёх сложных Atari средах; пройти первый уровень и впервые переиграть «среднего человека» в Montezuma's Revenge. Но не всё так радужно: OAI обучали агентов на 2B+ фреймов с помощью PPO.

Intrinsic Motivation:

https://spinningup.openai.com/en/latest/spinningup/keypapers.html#a-intrinsic-motivation

Exploration by Random Network Distillation
https://arxiv.org/abs/1810.12894

Приходите, будет интересно!

источник

19:56пожаловаться #15

cydoroga in RL reading group

Переслано от cydoroga

Если у вас нет пропуска в ШАД, не забудьте зарегистрироваться по ссылке до утра четверга:
https://docs.google.com/forms/d/e/1FAIpQLSd18PGkZuOqkWThJhmNxnmiSVFicnH4YwLVTCOkEkVQV6ZIDg/viewform

Google Docs

Deep RL reading group meeting

Если у Вас нет ШАДовского пропуска, и если Вы бы хотели посетить семинар, на котором разбираются статьи про RL, то эта форма – для Вас!

Несколько важных моментов:

1. Эту форму нужно будет заполнять КАЖДЫЙ РАЗ перед каждым семинаром, указывая дату предстоящего семинара

2. Отправлять форму нужно НЕ ПОЗЖЕ ВЕЧЕРА ДНЯ ПРЕДШЕСТВУЮЩЕГО СЕМИНАРУ (не позже среды, если семинар в чт). Если вдруг вы в день семинара поняли, что не успели отправить форму – пишите организаторам, что-нибудь придумаем!

3. В день семинара нужно ПРИХОДИТЬ С ПАСПОРТОМ. Без него могут не пустить.