weight decay — это отдельное уменьшение весов, не влияющее на градиенты, мы просто проходимся по ядрам сверток и полносвязных слоев и уменьшаем их.
Это реализовано в AdamW/SGDW
L2 — это слагаемое в лосс, оно повлияет на величину накоплений. Оказалось это вредно для Super-convergence (аля 1cycle)
Стандартный Adam — это L2