Телеграмм чат группы theoreticalrl страница 162

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

RL reading group

1092 membersпожаловаться на группу

2019 September 13

DN

Dmitry Nikulin in RL reading group

Получилось сделать запись?

Нет

источник

02:28пожаловаться #1

2019 September 17

AG

Aleksey Grinchuk in RL reading group

https://openai.com/blog/emergent-tool-use/

Emergent Tool Use from Multi-Agent Interaction

We've observed agents discovering progressively more complex tool use while playing a simple game of hide-and-seek.

источник

21:54пожаловаться #2

2019 September 24

P

Pavel Shvechikov in RL reading group

Коллеги, подскажите, пожалуйста, если кто шарит в continous control.
Знает ли кто методы с лучшим скором, чем SAC / TD3?

источник

18:53пожаловаться #3

AP

Anton Pechenko in RL reading group

PPO :) который готовят в OpenAI

источник

19:01пожаловаться #4

AP

Anton Pechenko in RL reading group

Я недавно чекнул метод кросс энтропии и был приятно удивлен

источник

19:02пожаловаться #5

P

Pavel Shvechikov in RL reading group

PPO :) который готовят в OpenAI

Хочется результаты лучше, чем в https://arxiv.org/pdf/1812.05905.pdf

источник

19:21пожаловаться #6

AP

Anton Pechenko in RL reading group

Мне кажется это графики скорее про сэмпл эфишенси

источник

19:29пожаловаться #7

AP

Anton Pechenko in RL reading group

Ну и многое зависит от реализации может так быть что ваши имплементации обгонят эти

источник

19:29пожаловаться #8

AP

Anton Pechenko in RL reading group

Просто потому что у вас не будет багов

источник

19:29пожаловаться #9

EZ

Evgenii Zheltonozhsk... in RL reading group

Просто потому что у вас не будет багов

Но обычно бывает наоборот

источник

19:31пожаловаться #10

P

Pavel Shvechikov in RL reading group

PPO :) который готовят в OpenAI

Trust Region-Guided Proximal Policy Optimization
https://arxiv.org/pdf/1901.10314.pdf

Говорят вот этот парень получше PPO, если кто еще PPO использует.

источник

19:32пожаловаться #11

P

Pavel Shvechikov in RL reading group

Ну и многое зависит от реализации может так быть что ваши имплементации обгонят эти

Если кто знает имплементации, которые обгоняют графики выше — я был бы очень признателен.

источник

19:32пожаловаться #12

AG

Aleksey Grinchuk in RL reading group

http://papers.nips.cc/paper/7451-simple-random-search-of-static-linear-policies-is-competitive-for-reinforcement-learning

Вот здесь есть более сильные цифры для Walker и Humanoid. Там, конечно, речи о sample efficiency идти не может, но зато есть примерная оценка потолка, который можно достичь.

Вообще, мне кажется, что все Mujoco среды достаточно задраны и текущие Sota-алгоритмы близки к максимально возможным наградам.

Simple random search of static linear policies is competitive for reinforcement learning

Electronic Proceedings of Neural Information Processing Systems

источник

19:41пожаловаться #13

EG

Evgeniy Golikov in RL reading group

Evgenii Zheltonozhskii🇮🇱

Но обычно бывает наоборот

Давно думаю о том, что баги регуляризуют модель

источник

19:41пожаловаться #14

EZ

Evgenii Zheltonozhsk... in RL reading group

Evgeniy Golikov

Давно думаю о том, что баги регуляризуют модель

Баян)

источник

19:44пожаловаться #15

EG

Evgeniy Golikov in RL reading group

Evgenii Zheltonozhskii🇮🇱

Баян)

Если уже есть что-то в сети про это, то было бы интересно посмотреть)

источник

19:47пожаловаться #16

P

Pavel Shvechikov in RL reading group

Aleksey Grinchuk

http://papers.nips.cc/paper/7451-simple-random-search-of-static-linear-policies-is-competitive-for-reinforcement-learning

Вот здесь есть более сильные цифры для Walker и Humanoid. Там, конечно, речи о sample efficiency идти не может, но зато есть примерная оценка потолка, который можно достичь.

Вообще, мне кажется, что все Mujoco среды достаточно задраны и текущие Sota-алгоритмы близки к максимально возможным наградам.

Simple random search of static linear policies is competitive for reinforcement learning

Electronic Proceedings of Neural Information Processing Systems

Почти на 2тыс награда хуже, чем в скрине последнего SACa (walker, humanoid)

источник

19:48пожаловаться #17

EZ

Evgenii Zheltonozhsk... in RL reading group

Evgeniy Golikov

Если уже есть что-то в сети про это, то было бы интересно посмотреть)

Не могу найти первоисточник, но, например, вот https://twitter.com/beenwrekt/status/957290686386200576

@beenwrekt @framrus (and 3 others) Choosing features: regularization. Choosing an algorithm: regularization. Using float32 instead of float64: regularization. A bug in your code: regularization.

источник

19:48пожаловаться #18

AG

Aleksey Grinchuk in RL reading group

Pavel Shvechikov

Почти на 2тыс награда хуже, чем в скрине последнего SACa (walker, humanoid)

В table 2 явно лучше награда

источник

19:50пожаловаться #19

P

Pavel Shvechikov in RL reading group

Aleksey Grinchuk

В table 2 явно лучше награда

Ссори не заметил вторую табличку.

источник

19:55пожаловаться #20