Size: a a a

RL reading group

2019 September 13

DN

Dmitry Nikulin in RL reading group
Dany Chepenko
Получилось сделать запись?
Нет
источник
2019 September 17

AG

Aleksey Grinchuk in RL reading group
источник
2019 September 24

P

Pavel Shvechikov in RL reading group
Коллеги, подскажите, пожалуйста, если кто шарит в continous control.
Знает ли кто методы с лучшим скором, чем SAC / TD3?
источник

AP

Anton Pechenko in RL reading group
PPO :) который готовят в OpenAI
источник

AP

Anton Pechenko in RL reading group
Я недавно чекнул метод кросс энтропии и был приятно удивлен
источник

P

Pavel Shvechikov in RL reading group
Anton Pechenko
PPO :) который готовят в OpenAI
Хочется результаты лучше, чем в https://arxiv.org/pdf/1812.05905.pdf
источник

AP

Anton Pechenko in RL reading group
Мне кажется это графики скорее про сэмпл эфишенси
источник

AP

Anton Pechenko in RL reading group
Ну и многое зависит от реализации может так быть что ваши имплементации обгонят эти
источник

AP

Anton Pechenko in RL reading group
Просто потому что у вас не будет багов
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
Anton Pechenko
Просто потому что у вас не будет багов
Но обычно бывает наоборот
источник

P

Pavel Shvechikov in RL reading group
Anton Pechenko
PPO :) который готовят в OpenAI
Trust Region-Guided Proximal Policy Optimization
https://arxiv.org/pdf/1901.10314.pdf

Говорят вот этот парень получше PPO, если кто еще PPO использует.
источник

P

Pavel Shvechikov in RL reading group
Anton Pechenko
Ну и многое зависит от реализации может так быть что ваши имплементации обгонят эти
Если кто знает имплементации, которые обгоняют графики выше — я был бы очень признателен.
источник

AG

Aleksey Grinchuk in RL reading group
http://papers.nips.cc/paper/7451-simple-random-search-of-static-linear-policies-is-competitive-for-reinforcement-learning

Вот здесь есть более сильные цифры для Walker и Humanoid. Там, конечно, речи о sample efficiency идти не может, но зато есть примерная оценка потолка, который можно достичь.

Вообще, мне кажется, что все Mujoco среды достаточно задраны и текущие Sota-алгоритмы близки к максимально возможным наградам.
источник

EG

Evgeniy Golikov in RL reading group
Evgenii Zheltonozhskii🇮🇱
Но обычно бывает наоборот
Давно думаю о том, что баги регуляризуют модель
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
Evgeniy Golikov
Давно думаю о том, что баги регуляризуют модель
Баян)
источник

EG

Evgeniy Golikov in RL reading group
Если уже есть что-то в сети про это, то было бы интересно посмотреть)
источник

P

Pavel Shvechikov in RL reading group
Aleksey Grinchuk
http://papers.nips.cc/paper/7451-simple-random-search-of-static-linear-policies-is-competitive-for-reinforcement-learning

Вот здесь есть более сильные цифры для Walker и Humanoid. Там, конечно, речи о sample efficiency идти не может, но зато есть примерная оценка потолка, который можно достичь.

Вообще, мне кажется, что все Mujoco среды достаточно задраны и текущие Sota-алгоритмы близки к максимально возможным наградам.
Почти на 2тыс награда хуже, чем в скрине последнего SACa (walker, humanoid)
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
Evgeniy Golikov
Если уже есть что-то в сети про это, то было бы интересно посмотреть)
Не могу найти первоисточник, но, например, вот https://twitter.com/beenwrekt/status/957290686386200576
источник

AG

Aleksey Grinchuk in RL reading group
Pavel Shvechikov
Почти на 2тыс награда хуже, чем в скрине последнего SACa (walker, humanoid)
В table 2 явно лучше награда
источник

P

Pavel Shvechikov in RL reading group
Aleksey Grinchuk
В table 2 явно лучше награда
Ссори не заметил вторую табличку.
источник