Телеграмм чат группы theoreticalrl страница 142

weight decay — это отдельное уменьшение весов, не влияющее на градиенты, мы просто проходимся по ядрам сверток и полносвязных слоев и уменьшаем их.
Это реализовано в AdamW/SGDW

L2 — это слагаемое в лосс, оно повлияет на величину накоплений. Оказалось это вредно для Super-convergence (аля 1cycle)
Стандартный Adam — это L2

источник

17:33пожаловаться #11

Artur Chakhvadze in RL reading group

https://arxiv.org/pdf/1810.12281.pdf

источник

17:35пожаловаться #12

Aleksey Grinchuk in RL reading group

Из моих наблюдений, weight decay довольно вреден для RL. Adam без weight decay довольно быстро загонял норму некоторых слоёв в 100+ и соответствующая политика отлично работала. С добавлением weight decay стало учиться медленнее и асимптотически к худшей суммарной награде.

источник

17:38пожаловаться #13

Pavel Shvechikov in RL reading group

https://arxiv.org/abs/1812.02341 Тут вроде исползовали L2 weight penalty, кажется помогало

источник

17:39пожаловаться #14

Aleksey Grinchuk in RL reading group

Может у них там награды маленькие суммарно. У меня в cheetah они до 10000 могли доходить, что с дискаунтом 0.99 требовало Q-значения порядка 1000. Там точно некоторые веса должны были высоко уходить.

источник

17:43пожаловаться #15

Aleksey Grinchuk in RL reading group

L2 reg использовали в AlphaGo, но там и optimizer другой (SGD with momentum) и value function из [-1, 1]. Да и loss больше на supervised похож.

источник

17:46пожаловаться #16

Pavel Shvechikov in RL reading group

Если изменение f(s) = Q(s, -).mean() как функции по посещенным состояниям незначительно, то среднее Q должно бы уходить в bias и не сильно затрагивать градиенты.

источник

17:47пожаловаться #17

Aleksey Grinchuk in RL reading group

Разумно. Надо посмотреть на каких именно слоях у меня норма высоко улетала. Очень может быть что для biasов, я их тоже, кажется, рисовал :D

источник

17:50пожаловаться #18

Andrii Zadaianchuk in RL reading group

@rl_agent @norpadon @ipaulo Спасибо большое за ответы, мне был интересен именно MB RL когда обучается определенный environment dynamics типа robotics arm в виде s_{t+1} = f(s_t,a_t), по сути это вообще задача регрессии имеющая к Model-Free RL мало отношения. Вот поэтому я и удивился, что при решении supervised задачи регрессии не используется регуляризация.

источник

17:53пожаловаться #19

Sergey Kolesnikov in RL reading group

Aleksey Grinchuk

не пробовал просто value-head без L2?

источник

17:53пожаловаться #20