Size: a a a

RL reading group

2018 March 03

V

Vadim in RL reading group
я про сиды
источник

S

Shmuma in RL reading group
Vadim
по моему это очень сложно сделать, если ты NN используешь
Вовсе нет. Нейросети (без dropout) детерминистичны, то есть определяются входом и весами. Веса инициализируются псевдослучайными числами, то есть полностью определяются сидом. Dropout определяется им же. В алгоритме оптимизации тоже все детерминистично - градиенты посчитали, шагнули. Случайность может вылезти из-за параллелизма, когда несколько потоков работают и генерят нам данные скажем, там сложнее. В остальных случаях, если зафиксировать все сиды, то при идентичном коде, результат совпадет.
источник

СВ

Сергей Власов... in RL reading group
Всем привет, никак не могу въехать, если у нас нет конца игры, как награждаем/наказываем агента, просто копия реворд?
источник

СВ

Сергей Власов... in RL reading group
Копится*
источник

АС

Артём С in RL reading group
Если использовать дисконтирование и реворды ограничены, то можно прикинуть, когда обрывать накопление награды
источник

AP

Anton Pechenko in RL reading group
Ограничься каким-то количеством шагов
источник

СВ

Сергей Власов... in RL reading group
То есть с некоторого времени перестать награждать?
источник

СВ

Сергей Власов... in RL reading group
А наказывать продолжить?
источник

AP

Anton Pechenko in RL reading group
Перезапускай эпизод
источник

СВ

Сергей Власов... in RL reading group
А если мне надо чтобы агент оставался на месте если его положение "хорошее"
источник

СВ

Сергей Власов... in RL reading group
?
источник

СВ

Сергей Власов... in RL reading group
Или перезапустить эпизод с прошлой позиции
источник

AC

Artur Chakhvadze in RL reading group
Чем trust region policy optimization / proximal policy optimization лучше чем policy gradients? Я правильно понимаю, что они требуют меньше симуляций?
источник

EN

Evgenii Nikishin in RL reading group
В TRPO у тебя примерно монотонно возрастает значение функционала
источник

EN

Evgenii Nikishin in RL reading group
В то время как в обычном PG / Actor-Critic политика может произвольно сильно изменяться
источник

AC

Artur Chakhvadze in RL reading group
Из-за слишком большой дисперсии градиента политики?
источник

AC

Artur Chakhvadze in RL reading group
То-есть верно ли, что если градиент политики аштрисет, TRPO покажет лучший результат?
источник

DP

Dmitry Persiyanov in RL reading group
В TRPO накладывается ограничение, чтобы KL(policy_{t-1} | policy_t) был не очень большой (то есть хотим чтобы распределение менялось не сильно)

В классических PG методах такого требования нет вроде
источник

AC

Artur Chakhvadze in RL reading group
Я понимаю теорию, я не понимаю в каких случаях на практике лучше использовать TRPO/PPO, а в каких A2C
источник

AC

Artur Chakhvadze in RL reading group
Я это к тому что в статье про learning transferable architectures with NAS используют PPO, а в статье про ENAS уже обычный REINFORCE. Хочется понять, чем руководствовались при выборе метода оптимизации
источник