Size: a a a

RL reading group

2019 July 05

P

Pavel Shvechikov in RL reading group
Переслано от Egor
Если коротко то это не tldr, но в целом поддерживаю
источник

P

Pavel Shvechikov in RL reading group
Очень давно обсуждали этот вопрос, решили, что если кто-то нашел интересную статью, то ее хорошо запостить.
Требовать к тому tldr кажется много. Если есть желание к статье писать tldr - это здорово. Если нет, то тоже здорово (лучше запостить без описания, чем не запостить из-за того, что лень писать это описание)
источник

E

Egor in RL reading group
Pavel Shvechikov
Очень давно обсуждали этот вопрос, решили, что если кто-то нашел интересную статью, то ее хорошо запостить.
Требовать к тому tldr кажется много. Если есть желание к статье писать tldr - это здорово. Если нет, то тоже здорово (лучше запостить без описания, чем не запостить из-за того, что лень писать это описание)
👍
источник
2019 July 11

S

Shmuma in RL reading group
Еще не закончилось, но слайды выкладывают оперативно https://rlss.inria.fr/program/
источник

АС

Артём С in RL reading group
Видосы будут? Слайды бесполезны
источник

S

Shmuma in RL reading group
нет, записи нет
источник
2019 July 14

SK

Sergey Kolesnikov in RL reading group
хай гайз,
думаю ни для кого не секрет, что я немного пинаю RL и вот это все
и даже есть Catalyst.RL, который умеет в кучу алгоритмов быстро/качественно/надежно
а еще люблю воспроизводимость, конфиги и вот это все, чем DL так известен :kekeke:  (привет Catalyst.DL)

короче говоря, на этой неделе я немного заморочился и решил запихнуть в наш CI не только DL convergence тесты, но еще и RL convergence тесты... reproducible RL - это больно, но если очень хочется - то можно

в общем, 🎉
в Catalyst CI теперь и агенты тренируются, и сходятся, да еще и на validation reward проверяются
по сути проверяется весь model free RL (PPO, DQN, DDPG, SAC, TD3), да еще и distributional value functions approximations впридачу...
в open-source travis CI, Карл!

в лучших традициях, ссылка на твит, пиара ради :good-enough:
https://twitter.com/Scitator/status/1150404821004034048?s=20
PS. комон, не каждый день reproducible RL подвозят, да и пропиарить такое действительно надо бы
:tnx:
источник
2019 July 15

TL

Timur Leonidovich in RL reading group
Sergey Kolesnikov
хай гайз,
думаю ни для кого не секрет, что я немного пинаю RL и вот это все
и даже есть Catalyst.RL, который умеет в кучу алгоритмов быстро/качественно/надежно
а еще люблю воспроизводимость, конфиги и вот это все, чем DL так известен :kekeke:  (привет Catalyst.DL)

короче говоря, на этой неделе я немного заморочился и решил запихнуть в наш CI не только DL convergence тесты, но еще и RL convergence тесты... reproducible RL - это больно, но если очень хочется - то можно

в общем, 🎉
в Catalyst CI теперь и агенты тренируются, и сходятся, да еще и на validation reward проверяются
по сути проверяется весь model free RL (PPO, DQN, DDPG, SAC, TD3), да еще и distributional value functions approximations впридачу...
в open-source travis CI, Карл!

в лучших традициях, ссылка на твит, пиара ради :good-enough:
https://twitter.com/Scitator/status/1150404821004034048?s=20
PS. комон, не каждый день reproducible RL подвозят, да и пропиарить такое действительно надо бы
:tnx:
я восхищаюсь вашей командой
источник
2019 July 23

SK

Sergey Kolesnikov in RL reading group
btw, гайз, я там еще разок обновил RL list, теперь и алгоритмов больше учел и про основные фишечки подглядеть не забыл

https://docs.google.com/spreadsheets/d/1EeFPd-XIQ3mq_9snTlAZSsFY7Hbnmd7P5bbT8LPuMn0/edit?usp=sharing
источник

VK

Vlad Kurenkov in RL reading group
Рллиб умеет в distributional dqn
источник

VK

Vlad Kurenkov in RL reading group
И что под dict support подразумевается? В рллибе так же есть дефолтные стратегии как их обрабатывать
источник

SK

Sergey Kolesnikov in RL reading group
Vlad Kurenkov
Рллиб умеет в distributional dqn
я там коммент написал, что только DQN он умеет distributional
источник

SK

Sergey Kolesnikov in RL reading group
да и то, только categorical
источник

SK

Sergey Kolesnikov in RL reading group
Vlad Kurenkov
И что под dict support подразумевается? В рллибе так же есть дефолтные стратегии как их обрабатывать
а вот на это линка на доку/код/example есть? ибо у них в дикте нашел другое
источник

VK

Vlad Kurenkov in RL reading group
Sergey Kolesnikov
а вот на это линка на доку/код/example есть? ибо у них в дикте нашел другое
ага,

"For preprocessors, RLlib tries to pick one of its built-in preprocessor based on the environment’s observation space. Discrete observations are one-hot encoded, Atari observations downscaled, and Tuple and Dict observations flattened (these are unflattened and accessible via the input_dict parameter in custom models). Note that for Atari, RLlib defaults to using the DeepMind preprocessors, which are also used by the OpenAI baselines library."

https://ray.readthedocs.io/en/latest/rllib-models.html
источник

VK

Vlad Kurenkov in RL reading group
Sergey Kolesnikov
я там коммент написал, что только DQN он умеет distributional
комментарии/заметки не видны :(
источник

VK

Vlad Kurenkov in RL reading group
ещё по параллелизму (если имелась ввиду векторизация): у них есть параметр в конфиге num_envs_per_worker
источник

SK

Sergey Kolesnikov in RL reading group
Vlad Kurenkov
ага,

"For preprocessors, RLlib tries to pick one of its built-in preprocessor based on the environment’s observation space. Discrete observations are one-hot encoded, Atari observations downscaled, and Tuple and Dict observations flattened (these are unflattened and accessible via the input_dict parameter in custom models). Note that for Atari, RLlib defaults to using the DeepMind preprocessors, which are also used by the OpenAI baselines library."

https://ray.readthedocs.io/en/latest/rllib-models.html
меня тут смущает вот что:
Preprocesses each dict value, then flattens it all into a vector.
источник

SK

Sergey Kolesnikov in RL reading group
т.е. реальный shape он скидывает
источник

VK

Vlad Kurenkov in RL reading group
reinforce (https://ray.readthedocs.io/en/latest/rllib-algorithms.html#policy-gradients), кстати, у них тоже реализован — там если в код полезть может показаться, что апдейт всё-равно похож на a2c, но по-факту нет, т.к у них реализован подсчёт advantage только через GAE (https://github.com/ray-project/ray/blob/master/python/ray/rllib/evaluation/postprocessing.py#L61), а в reinforce они его не используют (https://github.com/ray-project/ray/blob/master/python/ray/rllib/agents/pg/pg_policy.py#L28)
источник