Size: a a a

RL reading group

2018 January 24

EG

Evgeniy Golikov in RL reading group
Так это ж POMDP. Мы не знаем, что замышляют противиники, то есть, не знаем их стейт
источник

AG

Artem Grachev in RL reading group
да, мне тоже кажется, что это всё примеры POMDP
источник

AG

Artem Grachev in RL reading group
надо чтобы стейт противника был известен в момент принятия решения
источник

AG

Artem Grachev in RL reading group
Ну про MDP уже сказали, что там всегда есть детерминированная оптимальная policy
источник

P

Pavel Shvechikov in RL reading group
Anton Pechenko
Например когда мы играем против противника, который адаптируется к нашему поведению, то о нем известно что он определит и отконтрит нашу политику, при этом знания о нем будут даны, это же тогда mdp?
Если противник известен, можно ли считать его частью среды?
источник

AP

Anton Pechenko in RL reading group
Да, я это и имею в виду, что например известен алгоритм его функционирования, например он всегда запоминает куда мы в последний раз побежали и пытается там нас поймать
источник

AP

Anton Pechenko in RL reading group
Тогда нам надо бежать каждый раз по новому
источник

AP

Anton Pechenko in RL reading group
То есть это не полноценный агент, а какой-то очень простой и мы знаем как он работает
источник

AG

Artem Grachev in RL reading group
а это разве MDP? ну то есть здесь получается, что наше состояние зависит не только от предыдущего, разве нет?
источник

EG

Evgeniy Golikov in RL reading group
Ну, можно свести к MDP, если "состоянием" считать историю состояний
источник

AG

Artem Grachev in RL reading group
ну для таких "состояний" и стратегия будет детерминированная в том плане, что мы будем выбирать новое место
источник

AG

Artem Grachev in RL reading group
Ну точнее это как раз тот случай, когда наша стохастическая — это смесь детерминированных
источник

AG

Artem Grachev in RL reading group
и по сути может быть детерминированной
источник

AP

Anton Pechenko in RL reading group
Ну а если нам известно о противнике что он всегда определит нашу детерминированность и использует это в свою пользу?
источник

AP

Anton Pechenko in RL reading group
Тогда это pomdp?
источник

AP

Anton Pechenko in RL reading group
Или тогда это mdp, когда вся история - это наш стейт?
источник

AG

Artem Grachev in RL reading group
Anton Pechenko
Ну а если нам известно о противнике что он всегда определит нашу детерминированность и использует это в свою пользу?
мы близки к парадоксу
источник

AG

Artem Grachev in RL reading group
потому что с одной стороны мы знаем что думает противник и всегда можем пойти туда куда он не думает, что мы пойдем
источник

AG

Artem Grachev in RL reading group
с другой стороны противник всегда может угадать куда мы пойдем
источник

AG

Artem Grachev in RL reading group
что-то не сходится)
источник