Телеграмм чат группы theoreticalrl страница 63

13:54пожаловаться #1

2018 February 05

M-MCTS: Memory-Augmented Monte Carlo Tree Search
https://webdocs.cs.ualberta.ca/~mmueller/ps/2018/Chenjun-Xiao-M-MCTS-aaai18-final.pdf

11:12пожаловаться #2

Distributed Distributional Deterministic Policy Gradients

https://openreview.net/forum?id=SyZipzbCb Метод D4PG (адаптация Distributional Perspective on Reinforcement Learning к continuous action domain), судя по статье бешено рвет все SotA.

Моя простенькая реализация на pytorch: https://github.com/PacktPublishing/Practical-Deep-Reinforcement-Learning/blob/master/ch14/06_train_d4pg.py

openreview.net

This work adopts the very successful distributional perspective on reinforcement learning and adapts it to the continuous control setting. We combine this within a distributed framework for...

16:08пожаловаться #3

Какие среды удалось ей побороть?

16:10пожаловаться #4

Я имею в виду твою реализацию

16:10пожаловаться #5

Пока еще отлаживаю :)

16:10пожаловаться #6

Anton Pechenko

Какие среды удалось ей побороть?

На среде MinitaurBulletEnv-v0, D4PG без prioritized exp replay в 2 раза уделал DDPG и в 3 раза A2C (по макс награде). По скорости сходимости вообще огонь: D4PG работает всего 2 часа, DDPG 8 часов, A2C почти двое суток. Так что вроде не врут в статье :)

18:48пожаловаться #7

По идее, с приоритизацией еще бодрее должно быть

18:49пожаловаться #8

cydoroga in RL reading group

Ребят, кто может посоветовать годноты почитать по model-based RL? Можно даже не deep, если прям годнота)

20:34пожаловаться #9

2018 February 06

Result of D4PG method on MinitaurBulletEnv-v0 Code: https://github.com/PacktPublishing/Practical-Deep-Reinforcement-Learning/blob/master/ch14/06_train_d4pg.p...

Вот так D4PG научился бегать за ночь, на мой взгляд улучшаться ему уже некуда: https://youtu.be/BMt40odLfyk

YouTube

D4PG, reward 12.923, steps 659

11:17пожаловаться #10

а на двуногом ты пробовал?

12:00пожаловаться #11

выглядит прикольно

12:00пожаловаться #12

Grigory Z in RL reading group

Воувоу, прикольно)))

12:20пожаловаться #13

Нет, не пробовал, пока только на этой четвероножке с 8 моторчиками. Надо бы взять learning how to run, что уж там мелочиться

12:30пожаловаться #14

Предупреждаю: это будет больно

12:31пожаловаться #15

Sergey Kolesnikov in RL reading group

кто-то сказал “learning to run”?!
говорите D4PG - годно? окей, сделаем 🙂

12:51пожаловаться #16

Cooperative Inverse Reinforcement Learning
https://arxiv.org/abs/1606.03137

13:01пожаловаться #17

cydoroga

Ребят, кто может посоветовать годноты почитать по model-based RL? Можно даже не deep, если прям годнота)

На RL nips workshop была любопытная статья, когда модель учили исключительно по рандомным подергиваниям какое то время.
А потом сразу в бой агента посылали. Результаты были впечатляющие

13:01пожаловаться #18

@Shmuma Вот изложи свое видение, почему Distributional PG работает лучше? Что к этому приводит? Какого-то тумана налили в distributional perspective в целом.

13:02пожаловаться #19

Distributional Bellman and the C51 Algorithm | Felix Yu

Pavel Shvechikov

Есть статья где Distr RL хорошо объясняется: https://flyyufelix.github.io/2017/10/24/distributional-bellman.html Там есть пример с commute, где распределение вероятностей дает вполне реальное преимущество в прогнозировании чем просто среднее. На мой взгляд именно в этом дело и есть -- мы пытаемся упихать все сложное стохастическое будущее в одну цифру, в результате получается не очень.

flyyufelix.github.io

I got the chance to read this paper on Distributional Bellman published by DeepMind in July. Glossing over it the first time, my impression was that it would...