Size: a a a

RL reading group

2018 March 03

EN

Evgenii Nikishin in RL reading group
Artur Chakhvadze
То-есть верно ли, что если градиент политики аштрисет, TRPO покажет лучший результат?
Скорее да
источник

AC

Artur Chakhvadze in RL reading group
Спасибо
источник
2018 March 05

P

Pavel Shvechikov in RL reading group
А встречал ли кто-нибудь работы по RL для слуачая, когда распределение на награды не имеет первого момента? Distributional не в счет.
источник

P

Pavel Shvechikov in RL reading group
источник

AC

Artur Chakhvadze in RL reading group
Pavel Shvechikov
А встречал ли кто-нибудь работы по RL для слуачая, когда распределение на награды не имеет первого момента? Distributional не в счет.
А откуда такое берется?
источник

S

Shmuma in RL reading group
Ребята, помогите разобраться. В статье про Imagination в RL (https://arxiv.org/pdf/1707.06203.pdf) пишут что при обучении Environment Model использовалась Bernoulli cross-entropy loss (стр 14, пункт B.2). Но на выходе у Environment Model пиксели, того же размера что и на входе. Как можно пиксели сравнивать через cross-entropy я что-то никак не вкурю. Сделал там MSE, вроде работает, но все равно червячок сомнения не дает спать спокойно. Может я туплю, и надо по другому учить?
источник

AP

Anton Pechenko in RL reading group
может там можно классифицировать каждый пиксел? тогда можно использовать кросс-энтропию
источник

📒

📒 in RL reading group
Anton Pechenko
может там можно классифицировать каждый пиксел? тогда можно использовать кросс-энтропию
в мини пакмане там можно по идее
источник

📒

📒 in RL reading group
Shmuma
Ребята, помогите разобраться. В статье про Imagination в RL (https://arxiv.org/pdf/1707.06203.pdf) пишут что при обучении Environment Model использовалась Bernoulli cross-entropy loss (стр 14, пункт B.2). Но на выходе у Environment Model пиксели, того же размера что и на входе. Как можно пиксели сравнивать через cross-entropy я что-то никак не вкурю. Сделал там MSE, вроде работает, но все равно червячок сомнения не дает спать спокойно. Может я туплю, и надо по другому учить?
хмм я когда реализацию делал тоже mse использовал, даже не заметил этот пункт, кстати ты когда блоки в EnvModel делал повторил так же как в статье? просто у меня там что то с размерами сверток не совпало, и я упрощенную для мини пакмана сделал
источник

S

Shmuma in RL reading group
В смысле, возвращать не яркость, а распределение вероятности для класса цвета пикселя? Вроде так еще хуже с размерностями и сходимостью должно выходить. У меня в атари и так 84*84*2=14k чисел на выходе.
источник

S

Shmuma in RL reading group
📒
хмм я когда реализацию делал тоже mse использовал, даже не заметил этот пункт, кстати ты когда блоки в EnvModel делал повторил так же как в статье? просто у меня там что то с размерами сверток не совпало, и я упрощенную для мини пакмана сделал
Я делаю 1-в-1 модель из Sokoban, но на Breakout, все совпало.
источник

S

Shmuma in RL reading group
источник

📒

📒 in RL reading group
Shmuma
В смысле, возвращать не яркость, а распределение вероятности для класса цвета пикселя? Вроде так еще хуже с размерностями и сходимостью должно выходить. У меня в атари и так 84*84*2=14k чисел на выходе.
в сокобане там всего 7 разных пикселей походу они как отметил @Parilo классифицировали
источник

📒

📒 in RL reading group
и на рисунке роллаутов это тоже заметно
источник

S

Shmuma in RL reading group
Понятно, спасибо. Успокоили :)
источник

AG

Aleksey Grinchuk in RL reading group
https://mltrain.cc/wp-content/uploads/2017/10/sebastien-racaniere.pdf

Вот есть какие-то слайды с кодом. Там softmax cross entropy.
источник

📒

📒 in RL reading group
Aleksey Grinchuk
https://mltrain.cc/wp-content/uploads/2017/10/sebastien-racaniere.pdf

Вот есть какие-то слайды с кодом. Там softmax cross entropy.
где?
источник

📒

📒 in RL reading group
только distill loss вроде, про EnvModel не сказано
источник

AG

Aleksey Grinchuk in RL reading group
Всё так, сорян
источник

S

Shmuma in RL reading group
Distill loss не интересно. В статье даже формула зачем-то выписана :)
источник