Size: a a a

RL reading group

2019 May 15

AG

Aleksey Grinchuk in RL reading group
Там если что-то плохо работает, то не из-за того что мы переобучились, а из-за того тестируем на несколько другой задаче (то что Артур писал). Команда индусов под руководством Сергея Левина вроде как успешно учила ансамбль симуляторов (https://arxiv.org/abs/1610.01283) и применяла его.
источник
2019 May 16

c

cydoroga in RL reading group
Andrii Zadaianchuk
@rl_agent @norpadon @ipaulo  Спасибо большое за ответы, мне был интересен именно MB RL когда обучается определенный environment dynamics типа robotics arm в виде s_{t+1} = f(s_t,a_t), по сути это вообще задача регрессии имеющая к Model-Free RL мало отношения. Вот поэтому я и удивился, что при решении supervised задачи регрессии не используется регуляризация.
Для mb сейчас модно учить ансамбль для динамики среды
Это снижает шансы переобучиться
Явно напрашивается идея обучать байесовскую сеть вместо ансамбля, но чот в тех статьях, что я видел, про байесовские сети пишут, что они в планах только
источник

P

Pavel Shvechikov in RL reading group
@rl_agent, посмотри в контексте приоритезации
источник

P

Pavel Shvechikov in RL reading group
Переслано от Pavel Shvechikov
Diagnosing Bottlenecks in Deep Q-learning Algorithms
https://arxiv.org/pdf/1902.10250.pdf
источник
2019 May 20

SK

Sergey Kolesnikov in RL reading group
закину и сюда клич, на всякий случай 🙂
тут начинаются NIPS соревнования

https://www.aicrowd.com/challenges/neurips-2019-minerl-competition

https://www.aicrowd.com/challenges/neurips-2019-learning-to-move-walk-around

кто будет в них участвовать и хочет немного dreamteam?
источник

AK

Artem Krivosheev in RL reading group
Sergey Kolesnikov
закину и сюда клич, на всякий случай 🙂
тут начинаются NIPS соревнования

https://www.aicrowd.com/challenges/neurips-2019-minerl-competition

https://www.aicrowd.com/challenges/neurips-2019-learning-to-move-walk-around

кто будет в них участвовать и хочет немного dreamteam?
Вторая ссылка пишет, что не авторизован для просмотра страницы
источник

AK

Artem Krivosheev in RL reading group
В списке челленджей его тоже нет, странно
источник
2019 May 21

SK

Sergey Kolesnikov in RL reading group
видать рефакторят, хз
неделю назад все было норм
источник
2019 May 22

I

Ilya S. in RL reading group
Привет! Вы меня сейчас наверно выгоните отсюда, но я хочу предложить сделать митап по reinforcement learning в Москве. Если кто за, заполните пожалуйста небольшой опрос https://bit.ly/2HvJc0T
источник

SS

Sergey Sviridov in RL reading group
@dock32 а этот канал по твоему для чего?
источник
2019 May 23

SK

Sergey Kolesnikov in RL reading group
FYI, благодаря @Erring  обзавелся табличкой со сравнение разных RL frameworks
малять доработал, добавил инфы по execution & побольше алгоритом чекнул, получилось:

https://docs.google.com/spreadsheets/d/1EeFPd-XIQ3mq_9snTlAZSsFY7Hbnmd7P5bbT8LPuMn0/edit?usp=sharing
источник

SK

Sergey Kolesnikov in RL reading group
ну и коненчо же выделил для себя каталист, ибо с ним всегда сравнивал
источник

SK

Sergey Kolesnikov in RL reading group
если есть какие замечания/правки - пишите
источник

KO

Konstantin Ostrovsky in RL reading group
Гайз, кто-нибудь участвовал в unity obstacle tower challenge или следил за ним? Какие там подходы применялись в первом раунде и можно ли где-то раздобыть код?
источник

П

Пётр in RL reading group
Konstantin Ostrovsky
Гайз, кто-нибудь участвовал в unity obstacle tower challenge или следил за ним? Какие там подходы применялись в первом раунде и можно ли где-то раздобыть код?
Я участвовал и даже прошёл во второй раунд. В первом раунде было достаточно имплементации PPO или Rainbow. Первое место использовало Hierarchy RL.
источник

KO

Konstantin Ostrovsky in RL reading group
Пётр
Я участвовал и даже прошёл во второй раунд. В первом раунде было достаточно имплементации PPO или Rainbow. Первое место использовало Hierarchy RL.
А чем эти имплементации отличались от бейзлайна?
источник

П

Пётр in RL reading group
Бейзлайн, в принципе, тоже подходил.
источник

KO

Konstantin Ostrovsky in RL reading group
Пётр
Бейзлайн, в принципе, тоже подходил.
Просто через тюнинг гиперпараметров удавалось решить задачу с поиском ключей на этаже, с которой бейзлайн не справлялся?
источник

П

Пётр in RL reading group
Там не нужно было искать ключи. Для прохода во второй раунд было уверенно доходить до уровня, где нужен ключ.
источник

KO

Konstantin Ostrovsky in RL reading group
Пётр
Там не нужно было искать ключи. Для прохода во второй раунд было уверенно доходить до уровня, где нужен ключ.
А. Тогда не очень интересно😄
источник