Size: a a a

RL reading group

2018 February 21

AP

Anton Pechenko in RL reading group
так она обучается по градиенту критика, я что-то не пойму куда там L2 вставлять
источник

DP

Dmitry Persiyanov in RL reading group
У тебя же в dpg градиент перформанса это dpi/dtheta * dQ/da вроде, нет? К нему нужно добавить градиент по theta L2-нормы предактиваций
источник

AP

Anton Pechenko in RL reading group
ага, понял, спасибо)
источник

AP

Anton Pechenko in RL reading group
L2 что-то совсем не помогла, агент тупо перестает учится с ней
источник

LY

Liubov Yaronskaya in RL reading group
Ты настраивал коэффициент при ней?
источник

AP

Anton Pechenko in RL reading group
да, брал от 1 до 1e-4, при 1e-4 почти никакого влияния уже нет, значения улетают за диапазон
источник

AP

Anton Pechenko in RL reading group
но и обучения почему-то особого нет
источник

c

cydoroga in RL reading group
Коллеги, добрый вечер!

Завтра на семинаре выступит с докладом Александр Фрицлер
Rainbow: Combining Improvements in Deep Reinforcement Learning

Семинар, как обычно, в 19:00, в Стенфорде

Многие наверняка думали о том, чтобы скомбинировать всевозможные улучшения DQN в один алгоритм. А авторы Rainbow не ограничились мечтаниями, они взяли и сделали это! Подробности, результаты экспериментов и другое вы сможете узнать на самом докладе.

Регистрация на семинар по ссылке:
https://goo.gl/forms/n8ueMHhbv4nsIUm52
Не забудьте зарегистрироваться до вечера сегодняшнего дня, если хотите прийти!
источник

АС

Артём С in RL reading group
Anton Pechenko
да, брал от 1 до 1e-4, при 1e-4 почти никакого влияния уже нет, значения улетают за диапазон
Знак не перепутал? (-:
источник

AP

Anton Pechenko in RL reading group
Неа, проверил
источник

A

Arseny in RL reading group
Anton Pechenko
L2 что-то совсем не помогла, агент тупо перестает учится с ней
Может ещё инициализация весов неудачная. Ну и банально learning rate можно покрутить.
источник

AP

Anton Pechenko in RL reading group
попробую, но он и так маленький, 1е-4, сначала значения как раз небольшие, но потом вырастают достаточно быстро
источник

A

Arseny in RL reading group
Хм. Ну "маленький"-понятие относительное. Ещё банальный совет-может быть стоит где-то среднее взять вместо суммы (если суммируете награды, например), помогает стабилизировать ситуацию иногда.
источник

AP

Anton Pechenko in RL reading group
Я не суммирую)
источник

A

Arseny in RL reading group
Тогда не актуально) Кстати, ещё... может быть стоит слишком агрессивное угасание наград?
источник

A

Arseny in RL reading group
Просто алгоритм ведёт себя "близоруко", судя по описанию.
источник

AP

Anton Pechenko in RL reading group
у меня награда на каждом шаге, за приближение к точке
источник

AP

Anton Pechenko in RL reading group
по сути скорость уменьшения расстояния до цели
источник

A

Arseny in RL reading group
Хм... Может просто негативное расстояние до точки взять?
источник

AP

Anton Pechenko in RL reading group
видел такое в статьях, не думал, что это может помочь
источник