Телеграмм чат группы theoreticalrl страница 71

Ребята, помогите разобраться. В статье про Imagination в RL (https://arxiv.org/pdf/1707.06203.pdf) пишут что при обучении Environment Model использовалась Bernoulli cross-entropy loss (стр 14, пункт B.2). Но на выходе у Environment Model пиксели, того же размера что и на входе. Как можно пиксели сравнивать через cross-entropy я что-то никак не вкурю. Сделал там MSE, вроде работает, но все равно червячок сомнения не дает спать спокойно. Может я туплю, и надо по другому учить?

источник

21:29пожаловаться #6

AP

Anton Pechenko in RL reading group

может там можно классифицировать каждый пиксел? тогда можно использовать кросс-энтропию

источник

21:59пожаловаться #7

📒

📒 in RL reading group

Anton Pechenko

может там можно классифицировать каждый пиксел? тогда можно использовать кросс-энтропию

в мини пакмане там можно по идее

источник

22:00пожаловаться #8

📒

📒 in RL reading group

Shmuma

Ребята, помогите разобраться. В статье про Imagination в RL (https://arxiv.org/pdf/1707.06203.pdf) пишут что при обучении Environment Model использовалась Bernoulli cross-entropy loss (стр 14, пункт B.2). Но на выходе у Environment Model пиксели, того же размера что и на входе. Как можно пиксели сравнивать через cross-entropy я что-то никак не вкурю. Сделал там MSE, вроде работает, но все равно червячок сомнения не дает спать спокойно. Может я туплю, и надо по другому учить?

хмм я когда реализацию делал тоже mse использовал, даже не заметил этот пункт, кстати ты когда блоки в EnvModel делал повторил так же как в статье? просто у меня там что то с размерами сверток не совпало, и я упрощенную для мини пакмана сделал

источник

22:00пожаловаться #9

S

Shmuma in RL reading group

В смысле, возвращать не яркость, а распределение вероятности для класса цвета пикселя? Вроде так еще хуже с размерностями и сходимостью должно выходить. У меня в атари и так 84*84*2=14k чисел на выходе.

источник

22:03пожаловаться #10

S

Shmuma in RL reading group

📒

хмм я когда реализацию делал тоже mse использовал, даже не заметил этот пункт, кстати ты когда блоки в EnvModel делал повторил так же как в статье? просто у меня там что то с размерами сверток не совпало, и я упрощенную для мини пакмана сделал

Я делаю 1-в-1 модель из Sokoban, но на Breakout, все совпало.

источник

22:05пожаловаться #11

S

Shmuma in RL reading group

Вот она: https://github.com/PacktPublishing/Practical-Deep-Reinforcement-Learning/blob/master/ch17/lib/i2a.py#L16

источник

22:09пожаловаться #12

📒

📒 in RL reading group

Shmuma

В смысле, возвращать не яркость, а распределение вероятности для класса цвета пикселя? Вроде так еще хуже с размерностями и сходимостью должно выходить. У меня в атари и так 84*84*2=14k чисел на выходе.

в сокобане там всего 7 разных пикселей походу они как отметил @Parilo классифицировали

источник

22:10пожаловаться #13

📒

📒 in RL reading group

и на рисунке роллаутов это тоже заметно

источник

22:10пожаловаться #14

S

Shmuma in RL reading group

Понятно, спасибо. Успокоили :)

источник