Size: a a a

RL reading group

2018 March 05

📒

📒 in RL reading group
о круто что на торче книга надо добавить в awesome pytorch репозитории
седня делал neural episodic control, вроде это самый первый семинар, на питорче очень лекго получается, тянишь ближайших соседей из kd-дерева, оборачиваешь их nn.Parameter и все дифференцируется, а вот как такое сделать на tf я себе мало представляю
источник

DP

Dmitry Persiyanov in RL reading group
А есть эта книжка в пдф у кого-нибудь?
источник

DP

Dmitry Persiyanov in RL reading group
Переслано от Shmuma
источник

SC

Sergey Cheparukhin in RL reading group
Можно у автора спросить. @Shmuma
источник

РК

Руслан Костоев... in RL reading group
is expected to be published in May 2018
источник

DP

Dmitry Persiyanov in RL reading group
Сорри, не заметил, что еще не вышла
источник
2018 March 06

S

Shmuma in RL reading group
Dmitry Persiyanov
А есть эта книжка в пдф у кого-нибудь?
Пока черновики только, будет финальный вариант - скину сюда
источник
2018 March 08

LG

Leonid Gremyachikh in RL reading group
Привет! Можете посоветовать статьи по методам RL в continuous state and continuous action spaces?
источник

AP

Anton Pechenko in RL reading group
D4PG, TRPO, PPO смотрел?
источник

LG

Leonid Gremyachikh in RL reading group
Я слышал что они хорошие результаты дают. Планирую рассмотреть. Хотел начать с чего-то простого (MCTS), чтобы использовать потом хотя бы как baseline.
источник

LG

Leonid Gremyachikh in RL reading group
@Parilo как Вы считаете, в этом есть смысл?
источник

AG

Aleksey Grinchuk in RL reading group
А какова постановка задачи? Если у нас нет модели среды, то MCTS не применим.
источник

LG

Leonid Gremyachikh in RL reading group
Модель среды как раз есть. Нужно сделать всего 2-3 действия.
источник

LG

Leonid Gremyachikh in RL reading group
Каждое - 4мерный вектор
источник

LG

Leonid Gremyachikh in RL reading group
Суть задачи- спутнику надо сделать несколько маневров, чтобы избежать столкновения с несколькими объектами космического мусора и вернуться на орбиту.
источник

AG

Aleksey Grinchuk in RL reading group
Честно говоря, я не представляю как MCTS применить в случае непрерывных действий. Я знаком с MCTS по статье про AlphaGo и там важно чтобы пространство действий было дискретным и не очень большим.

Наверное, лучше попробовать сначала алгоритмы, предложенные Антоном. Они хорошо работают на многих задачах continuous control.
источник

LG

Leonid Gremyachikh in RL reading group
Большое спасибо.
источник

MP

Mikhail Pavlov in RL reading group
я пробовал MCTS для непрерывных действий по этой статье https://www.ijcai.org/Proceedings/16/Papers/104.pdf, работало хуже чем model free методы, какие привел Антон. Но это было только на одной среде и вполне возможно, что где-то была ошибка.
источник

LG

Leonid Gremyachikh in RL reading group
да, вот как раз из-за этой статьи решил с MCTS начать.
источник

LG

Leonid Gremyachikh in RL reading group
+ еще вот эти
источник