Телеграмм чат группы theoreticalrl страница 106

Сейчас я задам, наверное, слегда странный вопрос, но в каком-либо алгоритме RL используется ли policy сама по себе?

Я сейчас делаю для себя простенький интерфейс для RL моделей и заметил, что либо нужно действие сэмплируемое из policy, либо log p(action|policy, state), а policy сама по себе как "приватная переменная/метод" выступает.

источник

17:47пожаловаться #5

АС

Артём С in RL reading group

Что такое "сама policy"?

источник

17:49пожаловаться #6

Vladislav Belavin in RL reading group

К примеру, для дискретных действий — вектор вероятностей действия, а для непрерывных — (\mu, \sigma).

источник

17:50пожаловаться #7

Taras Khakhulin in RL reading group

Ну ты же используешь логарифм полиси ( как выше написал )

источник

17:51пожаловаться #8

АС

Артём С in RL reading group

Вообще, политикой обычно называют само распределение на следующее действие при условии текущего состояния

источник

17:53пожаловаться #9

АС

Артём С in RL reading group

И policy gradients методы используют её напрямую

источник

17:53пожаловаться #10

Vladislav Belavin in RL reading group

Поставлю по-другому вопрос, используется ли это распределение кроме как для расчёта log-policy члена для loss функции?

источник

17:56пожаловаться #11

Sergey Kolesnikov in RL reading group

а actions откуда?

источник

17:57пожаловаться #12

АС

Артём С in RL reading group

В off-policy методах используется

источник

17:58пожаловаться #13

Vladislav Belavin in RL reading group

Артём С

В off-policy методах используется

Для importance sampling?

источник

17:59пожаловаться #14

АС

Артём С in RL reading group

Ага

источник

17:59пожаловаться #15

Vladislav Belavin in RL reading group

Короче, если у обёртки для модели будет два метода:

.sample_action(state):
.log_policy(state, action):

то этого хватит для всего?

Ведь для IS нужно знать log_policy старое и новое, сама policy как распределение не особо важна.

источник

18:01пожаловаться #16

Ivan Cheverda in RL reading group

Еще бывает кроссэнтропийный регурялизатор.

источник

18:05пожаловаться #17

АС

Артём С in RL reading group

В Q-prop'е, например, нужно уметь считать E[a] по политике

источник

18:07пожаловаться #18

Vladislav Belavin in RL reading group

О, спасибо! :) А есть ещё примеры?

источник

18:15пожаловаться #19

📒

📒 in RL reading group

Vladislav Belavin

Короче, если у обёртки для модели будет два метода:

.sample_action(state):
.log_policy(state, action):

в acer и retrace (policy/old_policy) * log_policy считается

источник

18:28пожаловаться #20