Size: a a a

RL reading group

2019 May 15

VA

Vadim Andronov in RL reading group
что значит то же самое?
источник

AC

Artur Chakhvadze in RL reading group
Как минимум у тебя сила регуляризации от condition number зависит
источник

A

Alex in RL reading group
В классификации картинок weight decay все еще используют, и он не эквивалентен L2 если оптимизатор с накоплением градиентов.
источник

AC

Artur Chakhvadze in RL reading group
Если ты правду говоришь
источник

AC

Artur Chakhvadze in RL reading group
Alex
В классификации картинок weight decay все еще используют, и он не эквивалентен L2 если оптимизатор с накоплением градиентов.
А, правда, я только сейчас заметил что в NLP разница
источник

AC

Artur Chakhvadze in RL reading group
Непонятно почему
источник

VA

Vadim Andronov in RL reading group
Alex
В классификации картинок weight decay все еще используют, и он не эквивалентен L2 если оптимизатор с накоплением градиентов.
Почему? Глянул сейчас реализацию adam-а в торче. Вроде бы WD до накопления добавляется
источник

AC

Artur Chakhvadze in RL reading group
Теоретических обоснований нет, насолько я понимаю
источник

AC

Artur Chakhvadze in RL reading group
На практике из соображений стабильности выгодно иметь веса вблизи нуля
источник

AC

Artur Chakhvadze in RL reading group
источник

A

Alex in RL reading group
weight decay — это отдельное уменьшение весов, не влияющее на градиенты, мы просто проходимся по ядрам сверток и полносвязных слоев и уменьшаем их.
Это реализовано в AdamW/SGDW

L2 — это слагаемое в лосс, оно повлияет на величину накоплений. Оказалось это вредно для Super-convergence (аля 1cycle)
Стандартный Adam — это L2
источник

AC

Artur Chakhvadze in RL reading group
источник

AG

Aleksey Grinchuk in RL reading group
Из моих наблюдений, weight decay довольно вреден для RL. Adam без weight decay довольно быстро загонял норму некоторых слоёв в 100+ и соответствующая политика отлично работала. С добавлением weight decay стало учиться медленнее и асимптотически к худшей суммарной награде.
источник

P

Pavel Shvechikov in RL reading group
https://arxiv.org/abs/1812.02341 Тут вроде исползовали L2 weight penalty, кажется помогало
источник

AG

Aleksey Grinchuk in RL reading group
Может у них там награды маленькие суммарно. У меня в cheetah они до 10000 могли доходить, что с дискаунтом 0.99 требовало Q-значения порядка 1000. Там точно некоторые веса должны были высоко уходить.
источник

AG

Aleksey Grinchuk in RL reading group
L2 reg использовали в AlphaGo, но там и optimizer другой (SGD with momentum) и value function из [-1, 1]. Да и loss больше на supervised похож.
источник

P

Pavel Shvechikov in RL reading group
Если изменение f(s) = Q(s, -).mean() как функции по посещенным состояниям незначительно, то среднее Q должно бы уходить в bias и не сильно затрагивать градиенты.
источник

AG

Aleksey Grinchuk in RL reading group
Разумно. Надо посмотреть на каких именно слоях у меня норма высоко улетала. Очень может быть что для biasов, я их тоже, кажется, рисовал :D
источник

AZ

Andrii Zadaianchuk in RL reading group
@rl_agent @norpadon @ipaulo  Спасибо большое за ответы, мне был интересен именно MB RL когда обучается определенный environment dynamics типа robotics arm в виде s_{t+1} = f(s_t,a_t), по сути это вообще задача регрессии имеющая к Model-Free RL мало отношения. Вот поэтому я и удивился, что при решении supervised задачи регрессии не используется регуляризация.
источник

SK

Sergey Kolesnikov in RL reading group
Aleksey Grinchuk
Разумно. Надо посмотреть на каких именно слоях у меня норма высоко улетала. Очень может быть что для biasов, я их тоже, кажется, рисовал :D
не пробовал просто value-head без L2?
источник