А если вопрос поставить так: мы выдаём число, а противник - например рекуррентная сетка пытается его угадать, не будет ли тогда оптимальной стохастическая политика если мы знаем стейт сетки?
Она же тоже будет под нас подстраиваться и стратегии в духе выдать предсказываемое сеткой число + 1 не пройдут. Но тут детерминированность тоже есть, мы детерменированно сэмплим из равномерного распределения
Она же тоже будет под нас подстраиваться и стратегии в духе выдать предсказываемое сеткой число + 1 не пройдут. Но тут детерминированность тоже есть, мы детерменированно сэмплим из равномерного распределения
Я бы сказал, что это вариация игры камень-ножницы-бумага.
В многоруком бандите же детерминированная оптимальная, нет? Может быть в нестационарном бандите? Где распределение ревордов постоянно меняется (но это не классическая RL постановка)
Нестационарный бандит это интересно. Кажется тут стохастичность вызвана исследованием среды, которое никогда не заканчивается.
Я бы предполагал что-то подобное: Пусть есть биекция f между кривыми, тогда distance = минимум по таким биекциям \int || f(x) - x || dx, где интеграл берется вдоль траектории