Size: a a a

RL reading group

2019 February 01

c

cydoroga in RL reading group
Вот да
Чот он много спамит
источник

SD

Sergey Dzhunusov in RL reading group
Вроде таклй
источник
2019 February 04

AG

Aleksey Grinchuk in RL reading group
Прогоните кто-то этого Омара Хайяма
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
источник

GZ

Grigory Z in RL reading group
(c) Даниил Хармс ;)
источник

A

Akim in RL reading group
Добрый день! Следующий семинар будет посвящен этой теме? Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments
источник
2019 February 05

c

cydoroga in RL reading group
Akim
Добрый день! Следующий семинар будет посвящен этой теме? Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments
Скоро будет анонс!
источник

A

Akim in RL reading group
Спасибо!
источник

TG

Tatiana Gaintseva in RL reading group
источник

AM

Aleksandr Mikhailov ... in RL reading group
если прокрутить в обратном направлении, то будет раздеваться
источник

AM

Aleksandr Mikhailov ... in RL reading group
мне кажется на такое будет спрос
источник

TG

Tatiana Gaintseva in RL reading group
Ну просто это не кажется чем-то сверхъестественным сейчас, нет?
источник

AK

Alexander Kiselev in RL reading group
мне кажется не с того конца начали решать. Вот если бы он пытался одеть деревянное тело, а не себя...
источник

GZ

Grigory Z in RL reading group
Alexander Kiselev
мне кажется не с того конца начали решать. Вот если бы он пытался одеть деревянное тело, а не себя...
Раздеть деревянное тело это более стандартная задача
источник

c

cydoroga in RL reading group
Всем привет!

На этой неделе семинар пройдет как обычно:
Четверг, ШАД
Аудитория: Стенфорд
19:00

Миша Ягудин расскажет про intristic motivation в exploration'e, а вишенкой на торте будет алгоритм Random Network Distillation.

В сложных средах с отложенной наградой наивный explo (≈ \eps greedy или Gaussian noice) не работает. Intrinsic Motivation (внутренняя мотивация) — это бонусная награда, помогающая агенту исследовать среду. Обычно это information gain, псевдо-счётчик, ошибка предсказания динамики среды.

OpenAI в Random Network Distilation дают награду за ошибку предсказания обучаемой нейронной сети случайно проинициализированной нейронной сети. Этот сравнительно простой и робастный способ позволил получить SOTA на трёх сложных Atari средах; пройти первый уровень и впервые переиграть «среднего человека» в Montezuma's Revenge. Но не всё так радужно: OAI обучали агентов на 2B+ фреймов с помощью PPO.  

Intrinsic Motivation:
https://spinningup.openai.com/en/latest/spinningup/keypapers.html#a-intrinsic-motivation

Exploration by Random Network Distillation
https://arxiv.org/abs/1810.12894

Приходите, будет интересно!
источник

c

cydoroga in RL reading group
Переслано от cydoroga
Если у вас нет пропуска в ШАД, не забудьте зарегистрироваться по ссылке до утра четверга:
https://docs.google.com/forms/d/e/1FAIpQLSd18PGkZuOqkWThJhmNxnmiSVFicnH4YwLVTCOkEkVQV6ZIDg/viewform
источник
2019 February 07

S

Shmuma in RL reading group
"утро четверга" уже прошло? И если да, то планируется ли трансляция?
источник

c

cydoroga in RL reading group
Shmuma
"утро четверга" уже прошло? И если да, то планируется ли трансляция?
Вот теперь прошло)
На тебя пропуск сделал
источник

S

Shmuma in RL reading group
Спасибо!
источник

S

Shmuma in RL reading group
Уже полгода как собираюсь автоматизировать эту несчастную форму и повесить на крон :)
источник