Ну вообще выглядит странно. Потому что тогда вообще непонятно, что там с оптимальными политиками
Возможно Женя хотел сказать, что искать оптимальную политику в некотором классе (т.е. при ограничениях). Тогда, действительно, оптимальной может оказаться стохастическая. Но это тоже своеобразная экзотика
а пример можешь привести? Просто там было замечание про меру близости, без него я вообще себе это с трудом представляю. Если есть возможность как-то померять близость, то наверное что-то придумать можно, но я пока не смог.
Например когда мы играем против противника, который адаптируется к нашему поведению, то о нем известно что он определит и отконтрит нашу политику, при этом знания о нем будут даны, это же тогда mdp?