Телеграмм чат группы theoreticalrl страница 149

2019 July 05

P

Pavel Shvechikov in RL reading group

Переслано от Egor

Если коротко то это не tldr, но в целом поддерживаю

источник

12:28пожаловаться #1

P

Pavel Shvechikov in RL reading group

Очень давно обсуждали этот вопрос, решили, что если кто-то нашел интересную статью, то ее хорошо запостить.
Требовать к тому tldr кажется много. Если есть желание к статье писать tldr - это здорово. Если нет, то тоже здорово (лучше запостить без описания, чем не запостить из-за того, что лень писать это описание)

источник

12:31пожаловаться #2

E

Egor in RL reading group

Pavel Shvechikov

Очень давно обсуждали этот вопрос, решили, что если кто-то нашел интересную статью, то ее хорошо запостить.
Требовать к тому tldr кажется много. Если есть желание к статье писать tldr - это здорово. Если нет, то тоже здорово (лучше запостить без описания, чем не запостить из-за того, что лень писать это описание)

👍

источник

12:43пожаловаться #3

2019 July 11

S

Shmuma in RL reading group

Еще не закончилось, но слайды выкладывают оперативно https://rlss.inria.fr/program/

источник

11:53пожаловаться #4

АС

Артём С in RL reading group

Видосы будут? Слайды бесполезны

источник

12:09пожаловаться #5

S

Shmuma in RL reading group

нет, записи нет

источник

12:10пожаловаться #6

2019 July 14

SK

Sergey Kolesnikov in RL reading group

хай гайз,
думаю ни для кого не секрет, что я немного пинаю RL и вот это все
и даже есть Catalyst.RL, который умеет в кучу алгоритмов быстро/качественно/надежно
а еще люблю воспроизводимость, конфиги и вот это все, чем DL так известен :kekeke: (привет Catalyst.DL)

короче говоря, на этой неделе я немного заморочился и решил запихнуть в наш CI не только DL convergence тесты, но еще и RL convergence тесты... reproducible RL - это больно, но если очень хочется - то можно

в общем, 🎉
в Catalyst CI теперь и агенты тренируются, и сходятся, да еще и на validation reward проверяются
по сути проверяется весь model free RL (PPO, DQN, DDPG, SAC, TD3), да еще и distributional value functions approximations впридачу...
в open-source travis CI, Карл!

в лучших традициях, ссылка на твит, пиара ради :good-enough:
https://twitter.com/Scitator/status/1150404821004034048?s=20
PS. комон, не каждый день reproducible RL подвозят, да и пропиарить такое действительно надо бы
:tnx:

Twitter

Sergey Kolesnikov

It was "a little bit" hard, but... Finally, Catalyst has full RL algorithmic performance tests! PPO, DQN, DDPG, SAC, TD3 (and distributional improvements) will now be tested on every pull request. That's one small step for framework, one giant leap for reproducible RL research.

источник

17:27пожаловаться #7

2019 July 15

TL

Timur Leonidovich in RL reading group

Sergey Kolesnikov

хай гайз,
думаю ни для кого не секрет, что я немного пинаю RL и вот это все
и даже есть Catalyst.RL, который умеет в кучу алгоритмов быстро/качественно/надежно
а еще люблю воспроизводимость, конфиги и вот это все, чем DL так известен :kekeke: (привет Catalyst.DL)

короче говоря, на этой неделе я немного заморочился и решил запихнуть в наш CI не только DL convergence тесты, но еще и RL convergence тесты... reproducible RL - это больно, но если очень хочется - то можно

в общем, 🎉
в Catalyst CI теперь и агенты тренируются, и сходятся, да еще и на validation reward проверяются
по сути проверяется весь model free RL (PPO, DQN, DDPG, SAC, TD3), да еще и distributional value functions approximations впридачу...
в open-source travis CI, Карл!

в лучших традициях, ссылка на твит, пиара ради :good-enough:
https://twitter.com/Scitator/status/1150404821004034048?s=20
PS. комон, не каждый день reproducible RL подвозят, да и пропиарить такое действительно надо бы
:tnx:

Twitter

Sergey Kolesnikov

It was "a little bit" hard, but... Finally, Catalyst has full RL algorithmic performance tests! PPO, DQN, DDPG, SAC, TD3 (and distributional improvements) will now be tested on every pull request. That's one small step for framework, one giant leap for reproducible RL research.

я восхищаюсь вашей командой

источник

00:28пожаловаться #8

2019 July 23

SK

Sergey Kolesnikov in RL reading group

btw, гайз, я там еще разок обновил RL list, теперь и алгоритмов больше учел и про основные фишечки подглядеть не забыл

https://docs.google.com/spreadsheets/d/1EeFPd-XIQ3mq_9snTlAZSsFY7Hbnmd7P5bbT8LPuMn0/edit?usp=sharing

Google Docs

Open-source RL

Frameworks

Execution,Algorithms (discrete / continuous / both),Additional features
Project,link,Maintainer,Framework,Parallel,Distributed,DQN,Rainbow,REINFORCE,A2C,PPO,DDPG,SAC,TD3,REINFORCE,A2C,PPO,TRPO,GAIL,n-step
return
<a href="https://github.com/openai/baselines">OpenAI baselines,<a hr...

источник

22:16пожаловаться #9

VK

Vlad Kurenkov in RL reading group

Sergey Kolesnikov

btw, гайз, я там еще разок обновил RL list, теперь и алгоритмов больше учел и про основные фишечки подглядеть не забыл

https://docs.google.com/spreadsheets/d/1EeFPd-XIQ3mq_9snTlAZSsFY7Hbnmd7P5bbT8LPuMn0/edit?usp=sharing

Google Docs

Open-source RL

Frameworks

Execution,Algorithms (discrete / continuous / both),Additional features
Project,link,Maintainer,Framework,Parallel,Distributed,DQN,Rainbow,REINFORCE,A2C,PPO,DDPG,SAC,TD3,REINFORCE,A2C,PPO,TRPO,GAIL,n-step
return
<a href="https://github.com/openai/baselines">OpenAI baselines,<a hr...

Рллиб умеет в distributional dqn

источник

22:18пожаловаться #10

VK

Vlad Kurenkov in RL reading group

И что под dict support подразумевается? В рллибе так же есть дефолтные стратегии как их обрабатывать

источник

22:19пожаловаться #11

SK

Sergey Kolesnikov in RL reading group

Vlad Kurenkov

Рллиб умеет в distributional dqn

я там коммент написал, что только DQN он умеет distributional

источник

22:19пожаловаться #12

SK

Sergey Kolesnikov in RL reading group

да и то, только categorical

источник

22:19пожаловаться #13

SK

Sergey Kolesnikov in RL reading group

Vlad Kurenkov

И что под dict support подразумевается? В рллибе так же есть дефолтные стратегии как их обрабатывать

а вот на это линка на доку/код/example есть? ибо у них в дикте нашел другое

источник

22:21пожаловаться #14

VK

Vlad Kurenkov in RL reading group

Sergey Kolesnikov

а вот на это линка на доку/код/example есть? ибо у них в дикте нашел другое

ага,

"For preprocessors, RLlib tries to pick one of its built-in preprocessor based on the environment’s observation space. Discrete observations are one-hot encoded, Atari observations downscaled, and Tuple and Dict observations flattened (these are unflattened and accessible via the input_dict parameter in custom models). Note that for Atari, RLlib defaults to using the DeepMind preprocessors, which are also used by the OpenAI baselines library."

https://ray.readthedocs.io/en/latest/rllib-models.html

источник

22:22пожаловаться #15

VK

Vlad Kurenkov in RL reading group

Sergey Kolesnikov

я там коммент написал, что только DQN он умеет distributional

комментарии/заметки не видны :(

источник

22:26пожаловаться #16

VK

Vlad Kurenkov in RL reading group

ещё по параллелизму (если имелась ввиду векторизация): у них есть параметр в конфиге num_envs_per_worker

источник

22:30пожаловаться #17

SK

Sergey Kolesnikov in RL reading group

Vlad Kurenkov

ага,

"For preprocessors, RLlib tries to pick one of its built-in preprocessor based on the environment’s observation space. Discrete observations are one-hot encoded, Atari observations downscaled, and Tuple and Dict observations flattened (these are unflattened and accessible via the input_dict parameter in custom models). Note that for Atari, RLlib defaults to using the DeepMind preprocessors, which are also used by the OpenAI baselines library."

https://ray.readthedocs.io/en/latest/rllib-models.html

меня тут смущает вот что:
Preprocesses each dict value, then flattens it all into a vector.

источник

22:31пожаловаться #18

SK

Sergey Kolesnikov in RL reading group

т.е. реальный shape он скидывает

источник

22:31пожаловаться #19

VK

Vlad Kurenkov in RL reading group

reinforce (https://ray.readthedocs.io/en/latest/rllib-algorithms.html#policy-gradients), кстати, у них тоже реализован — там если в код полезть может показаться, что апдейт всё-равно похож на a2c, но по-факту нет, т.к у них реализован подсчёт advantage только через GAE (https://github.com/ray-project/ray/blob/master/python/ray/rllib/evaluation/postprocessing.py#L61), а в reinforce они его не используют (https://github.com/ray-project/ray/blob/master/python/ray/rllib/agents/pg/pg_policy.py#L28)

источник

22:52пожаловаться #20