Size: a a a

RL reading group

2018 January 24

C

Constantine in RL reading group
так там же есть теоремка, что для MDP всегда найдется оптимальная детерминированная стратегия
источник

A

Arseny in RL reading group
Видимо речь не про MDP.  В теории игр этого много, помню задачку про две армии, которые выбирают, где напасть)
источник

C

Constantine in RL reading group
похоже на то
источник

C

Constantine in RL reading group
хотя в принципе может существовать оптимальная стохастическая стратегия, которая входит в множество оптимальных стратегий (где и обязательно существует детерминированная). но практического смысла в этом не вижу.
источник

DP

Dmitry Persiyanov in RL reading group
@ipaulo А чем мотивирован вопрос?
источник

DP

Dmitry Persiyanov in RL reading group
Если не секрет:)
источник

P

Pavel Shvechikov in RL reading group
Вот я пытаюсь понять, есть ли какие-то принципиально другие постановки с оптимальной стохастической политикой, которые не сводятся к POMDP.
Что ещё может требовать стохастичности кроме частичной наблюдаемости?
источник

c

cydoroga in RL reading group
Стохастичность среды / ревард функции?
источник

P

Pavel Shvechikov in RL reading group
Constantine
хотя в принципе может существовать оптимальная стохастическая стратегия, которая входит в множество оптимальных стратегий (где и обязательно существует детерминированная). но практического смысла в этом не вижу.
Да, такое тоже может быть, если оптимальных детерминированных несколько, но я бы сказал это скорее вариация на "детерминированную тему"
источник

P

Pavel Shvechikov in RL reading group
Dmitry Persiyanov
В многоруком бандите же детерминированная оптимальная, нет?
Может быть в нестационарном бандите? Где распределение ревордов постоянно меняется (но это не классическая RL постановка)
Интересный вариант
источник

EG

Evgeniy Golikov in RL reading group
Может быть, transfer learning. Обучаем агента действовать на одной среде, а хотим, чтобы хорошо действовал в другой
источник

P

Pavel Shvechikov in RL reading group
Evgeniy Golikov
Может быть, transfer learning. Обучаем агента действовать на одной среде, а хотим, чтобы хорошо действовал в другой
Поясни пожалуйста, откуда стохастичность оптимальной политики?
источник

A

Arseny in RL reading group
Может имелась в виду необходимость exploration в новой среде...
источник

EG

Evgeniy Golikov in RL reading group
Ну, мы же не знаем, какая будет новая среда. Поэтому оптимальная в старой стратегия не будет оптимальной в новой. Поэтому выгоднее будет принять стохастическую политику, чем использовать заведомо неоптимальную детерминированную
источник

EG

Evgeniy Golikov in RL reading group
Да, считаем, что у агента нет возможности обучиться в новой среде хоть сколько-нибудь
источник

EG

Evgeniy Golikov in RL reading group
Но есть какая-то оценка на "меру близости" двух сред
источник

AG

Artem Grachev in RL reading group
Evgeniy Golikov
Ну, мы же не знаем, какая будет новая среда. Поэтому оптимальная в старой стратегия не будет оптимальной в новой. Поэтому выгоднее будет принять стохастическую политику, чем использовать заведомо неоптимальную детерминированную
Ну вообще выглядит странно. Потому что тогда вообще непонятно, что там с оптимальными политиками
источник

AG

Artem Grachev in RL reading group
Evgeniy Golikov
Но есть какая-то оценка на "меру близости" двух сред
если есть оценка, то наверное как-то можно что-то придумать. Но мне кажется, что лучше просто рассматривать задачу наиболее быстрого обучения в новой среде
источник

AG

Artem Grachev in RL reading group
и тогда это всё-таки вопрос про exploration
источник

AG

Artem Grachev in RL reading group
а не про policy
источник