Size: a a a

RL reading group

2018 January 24

AP

Anton Pechenko in RL reading group
Я просто предложил) я не претендую, что знаю ответ)
источник

AG

Artem Grachev in RL reading group
не, я просто к тому что среда уже стала противоречивой)
источник

AG

Artem Grachev in RL reading group
то есть те два условия не могут выполняться одновременно
источник

AP

Anton Pechenko in RL reading group
В общем я мыслю в русле как сделать чтобы наша детерминированность мешала
источник

AG

Artem Grachev in RL reading group
POMDP )
источник

AP

Anton Pechenko in RL reading group
Смотри, чтобы пойти не туда нам нужна как раз стохастичность. Ну в общем идея такая
источник

EG

Evgeniy Golikov in RL reading group
Нам достаточно сложной детерминированности
источник

C

Constantine in RL reading group
что значит пойти не туда :)
источник

C

Constantine in RL reading group
?
источник

EG

Evgeniy Golikov in RL reading group
Чтобы противник не догадался, как мы действуем
источник

C

Constantine in RL reading group
если у нас MDP, то однозначно будет детерминированная стратегия
источник

C

Constantine in RL reading group
т.е. в примере выше, зная список шагов, мы знаем как поведет себя противник (это же MDP!), и шагаем оптимально.
источник

EG

Evgeniy Golikov in RL reading group
Если противник "учится" на наших шагах, и алгоритм обучения известен, то можно его заревёрс-инжинирить, и подобрать такую детерминированную стратегию, что его метод обучения сломается
источник

AG

Artem Grachev in RL reading group
да, но мы же знаем "мысли" соперника, соотвественно мы всё ещё шагаем оптимально с учётом его новых знаний
источник

AG

Artem Grachev in RL reading group
либо у нас логическое противоречие
источник

C

Constantine in RL reading group
при каком условии противоречие?
источник

AP

Anton Pechenko in RL reading group
А если он знает что мы знаем что он знает?
источник

AP

Anton Pechenko in RL reading group
:))
источник

C

Constantine in RL reading group
:)))
источник

AG

Artem Grachev in RL reading group
но мы же знаем, что он знает, что мы знаем, что он знает?
источник