Телеграмм чат группы theoreticalrl страница 143

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

RL reading group

1092 membersпожаловаться на группу

2019 May 15

AG

Aleksey Grinchuk in RL reading group

Там если что-то плохо работает, то не из-за того что мы переобучились, а из-за того тестируем на несколько другой задаче (то что Артур писал). Команда индусов под руководством Сергея Левина вроде как успешно учила ансамбль симуляторов (https://arxiv.org/abs/1610.01283) и применяла его.

EPOpt: Learning Robust Neural Network Policies Using Model Ensembles

Sample complexity and safety are major challenges when learning policies with
reinforcement learning for real-world tasks, especially when the policies are
represented using rich function...

источник

17:57пожаловаться #1

2019 May 16

c

cydoroga in RL reading group

Andrii Zadaianchuk

@rl_agent @norpadon @ipaulo Спасибо большое за ответы, мне был интересен именно MB RL когда обучается определенный environment dynamics типа robotics arm в виде s_{t+1} = f(s_t,a_t), по сути это вообще задача регрессии имеющая к Model-Free RL мало отношения. Вот поэтому я и удивился, что при решении supervised задачи регрессии не используется регуляризация.

Для mb сейчас модно учить ансамбль для динамики среды
Это снижает шансы переобучиться
Явно напрашивается идея обучать байесовскую сеть вместо ансамбля, но чот в тех статьях, что я видел, про байесовские сети пишут, что они в планах только

источник

09:58пожаловаться #2

P

Pavel Shvechikov in RL reading group

@rl_agent, посмотри в контексте приоритезации

источник

13:33пожаловаться #3

P

Pavel Shvechikov in RL reading group

Переслано от Pavel Shvechikov

Diagnosing Bottlenecks in Deep Q-learning Algorithms
https://arxiv.org/pdf/1902.10250.pdf

источник

13:33пожаловаться #4

2019 May 20

SK

Sergey Kolesnikov in RL reading group

закину и сюда клич, на всякий случай 🙂
тут начинаются NIPS соревнования

https://www.aicrowd.com/challenges/neurips-2019-minerl-competition

https://www.aicrowd.com/challenges/neurips-2019-learning-to-move-walk-around

кто будет в них участвовать и хочет немного dreamteam?

источник

22:59пожаловаться #5

AK

Artem Krivosheev in RL reading group

Sergey Kolesnikov

закину и сюда клич, на всякий случай 🙂
тут начинаются NIPS соревнования

https://www.aicrowd.com/challenges/neurips-2019-minerl-competition

https://www.aicrowd.com/challenges/neurips-2019-learning-to-move-walk-around

кто будет в них участвовать и хочет немного dreamteam?

Вторая ссылка пишет, что не авторизован для просмотра страницы

источник

23:54пожаловаться #6

AK

Artem Krivosheev in RL reading group

В списке челленджей его тоже нет, странно

источник

23:56пожаловаться #7

2019 May 21

SK

Sergey Kolesnikov in RL reading group

видать рефакторят, хз
неделю назад все было норм

источник

07:06пожаловаться #8

2019 May 22

I

Ilya S. in RL reading group

Привет! Вы меня сейчас наверно выгоните отсюда, но я хочу предложить сделать митап по reinforcement learning в Москве. Если кто за, заполните пожалуйста небольшой опрос https://bit.ly/2HvJc0T

Fill | RL Moscow Meetup

Нужно ли нам иногда встречаться?

источник

16:20пожаловаться #9

SS

Sergey Sviridov in RL reading group

@dock32 а этот канал по твоему для чего?

источник

16:52пожаловаться #10

2019 May 23

SK

Sergey Kolesnikov in RL reading group

FYI, благодаря @Erring обзавелся табличкой со сравнение разных RL frameworks
малять доработал, добавил инфы по execution & побольше алгоритом чекнул, получилось:

https://docs.google.com/spreadsheets/d/1EeFPd-XIQ3mq_9snTlAZSsFY7Hbnmd7P5bbT8LPuMn0/edit?usp=sharing

Open-source RL

Frameworks

Execution,Algorithms (discrete / continuous / both),Additional features
Project,link,Maintainer,Framework,Parallel,Distributed,DQN,Rainbow,REINFORCE,A2C,PPO,DDPG,SAC,TD3,REINFORCE,A2C,PPO,TRPO,GAIL,n-step
return
<a href="https://github.com/openai/baselines">OpenAI baselines,<a hr...

источник

10:30пожаловаться #11

SK

Sergey Kolesnikov in RL reading group

ну и коненчо же выделил для себя каталист, ибо с ним всегда сравнивал

источник

10:30пожаловаться #12

SK

Sergey Kolesnikov in RL reading group

если есть какие замечания/правки - пишите

источник

10:31пожаловаться #13

KO

Konstantin Ostrovsky in RL reading group

Гайз, кто-нибудь участвовал в unity obstacle tower challenge или следил за ним? Какие там подходы применялись в первом раунде и можно ли где-то раздобыть код?

источник

12:29пожаловаться #14

П

Пётр in RL reading group

Konstantin Ostrovsky

Гайз, кто-нибудь участвовал в unity obstacle tower challenge или следил за ним? Какие там подходы применялись в первом раунде и можно ли где-то раздобыть код?

Я участвовал и даже прошёл во второй раунд. В первом раунде было достаточно имплементации PPO или Rainbow. Первое место использовало Hierarchy RL.

источник

13:39пожаловаться #15

KO

Konstantin Ostrovsky in RL reading group

Я участвовал и даже прошёл во второй раунд. В первом раунде было достаточно имплементации PPO или Rainbow. Первое место использовало Hierarchy RL.

А чем эти имплементации отличались от бейзлайна?

источник

13:42пожаловаться #16

П

Пётр in RL reading group

Бейзлайн, в принципе, тоже подходил.

источник

13:42пожаловаться #17

KO

Konstantin Ostrovsky in RL reading group

Бейзлайн, в принципе, тоже подходил.

Просто через тюнинг гиперпараметров удавалось решить задачу с поиском ключей на этаже, с которой бейзлайн не справлялся?

источник

13:44пожаловаться #18

П

Пётр in RL reading group

Там не нужно было искать ключи. Для прохода во второй раунд было уверенно доходить до уровня, где нужен ключ.

источник

13:45пожаловаться #19

KO

Konstantin Ostrovsky in RL reading group

Там не нужно было искать ключи. Для прохода во второй раунд было уверенно доходить до уровня, где нужен ключ.

А. Тогда не очень интересно😄

источник

13:46пожаловаться #20