Size: a a a

RL reading group

2018 September 03

GZ

Grigory Z in RL reading group
Мыш кродёться?
источник

AR

Aliaksei Rak in RL reading group
Колендарь переворачиваеться?
источник

SK

Sergey Kolesnikov in RL reading group
товарищи, а есть какие личные заметки/эксперименты/прочее по https://arxiv.org/abs/1808.04355?
источник

AG

Alexander Grishin in RL reading group
как раз сегодня открыл эту статью, чтобы поисследовать на днях)
источник
2018 September 04

VB

Vladislav Belavin in RL reading group
Сейчас я задам, наверное, слегда странный вопрос, но в каком-либо алгоритме RL используется ли policy сама по себе?

Я сейчас делаю для себя простенький интерфейс для RL моделей и заметил, что либо нужно действие сэмплируемое из policy, либо log p(action|policy, state), а policy сама по себе как "приватная переменная/метод" выступает.
источник

АС

Артём С in RL reading group
Что такое "сама policy"?
источник

VB

Vladislav Belavin in RL reading group
К примеру, для дискретных действий — вектор вероятностей действия, а для непрерывных — (\mu, \sigma).
источник

TK

Taras Khakhulin in RL reading group
Ну ты же используешь логарифм полиси ( как выше написал )
источник

АС

Артём С in RL reading group
Вообще, политикой обычно называют само распределение на следующее действие при условии текущего состояния
источник

АС

Артём С in RL reading group
И policy gradients методы используют её напрямую
источник

VB

Vladislav Belavin in RL reading group
Поставлю по-другому вопрос, используется ли это распределение кроме как для расчёта log-policy члена для loss функции?
источник

SK

Sergey Kolesnikov in RL reading group
а actions откуда?
источник

АС

Артём С in RL reading group
В off-policy методах используется
источник

VB

Vladislav Belavin in RL reading group
Артём С
В off-policy методах используется
Для importance sampling?
источник

АС

Артём С in RL reading group
Ага
источник

VB

Vladislav Belavin in RL reading group
Короче, если у обёртки для модели будет два метода:
.sample_action(state):
.log_policy(state, action):

то  этого хватит для всего?

Ведь для IS нужно знать log_policy старое и новое, сама policy как распределение не особо важна.
источник

IC

Ivan Cheverda in RL reading group
Еще бывает кроссэнтропийный регурялизатор.
источник

АС

Артём С in RL reading group
В Q-prop'е, например, нужно уметь считать E[a] по политике
источник

VB

Vladislav Belavin in RL reading group
О, спасибо! :) А есть ещё примеры?
источник

📒

📒 in RL reading group
Vladislav Belavin
Короче, если у обёртки для модели будет два метода:
.sample_action(state):
.log_policy(state, action):

то  этого хватит для всего?

Ведь для IS нужно знать log_policy старое и новое, сама policy как распределение не особо важна.
в acer и retrace  (policy/old_policy) * log_policy считается
источник