Size: a a a

RL reading group

2018 January 24

P

Pavel Shvechikov in RL reading group
Artem Grachev
Ну вообще выглядит странно. Потому что тогда вообще непонятно, что там с оптимальными политиками
Возможно Женя хотел сказать, что искать оптимальную политику в некотором классе (т.е. при ограничениях). Тогда, действительно, оптимальной может оказаться стохастическая.
Но это тоже своеобразная экзотика
источник

EG

Evgeniy Golikov in RL reading group
Нет, я хотел сказать, что оптимальная-то в новой среде детерминированная, но мы не можем точно сказать, какая, так как всё время крутимся в старой
источник

P

Pavel Shvechikov in RL reading group
Т.е. ограничены в классе политик, которые можно выучить в старой
источник

AG

Artem Grachev in RL reading group
а пример можешь привести?
Просто там было замечание про меру близости, без него я вообще себе это с трудом представляю. Если есть возможность как-то померять близость, то наверное что-то придумать можно, но я пока не смог.
источник

AG

Artem Grachev in RL reading group
Ну без меры близости, понятно, вообще ничего нельзя сказать и остается только оптимизировать детерминированную policy для известной среды.
источник

EG

Evgeniy Golikov in RL reading group
Почему ограничены? Можно выбрать какой-нибудь дикий метод обучения, который может привести к какой угодно политике
источник

EG

Evgeniy Golikov in RL reading group
Мне кажется, вопрос о мере близости ещё не исследован)
источник

EG

Evgeniy Golikov in RL reading group
Может быть, для простых MDP что-то можно сказать
источник

P

Pavel Shvechikov in RL reading group
Evgeniy Golikov
Почему ограничены? Можно выбрать какой-нибудь дикий метод обучения, который может привести к какой угодно политике
Что-то Жень ты странное толкаешь : )
источник

AG

Artem Grachev in RL reading group
Evgeniy Golikov
Мне кажется, вопрос о мере близости ещё не исследован)
ну я на эвристиках пытался.
Короче, там всё очень плохо...
источник

AP

Anton Pechenko in RL reading group
Например когда мы играем против противника, который адаптируется к нашему поведению, то о нем известно что он определит и отконтрит нашу политику, при этом знания о нем будут даны, это же тогда mdp?
источник

AP

Anton Pechenko in RL reading group
Тогда надо действовать стохастически
источник

AG

Artem Grachev in RL reading group
В общем, я с помощью image transformation пытался свести breakout к понгу или наоборот и полиси с одной среды на другую нифига не переносится.
источник

AG

Artem Grachev in RL reading group
хотя картинки там получались ну +- похожие
источник

AP

Anton Pechenko in RL reading group
Можно наверное попробовать разные брейкауты
источник

AG

Artem Grachev in RL reading group
да, это делает DeepMind
источник

EG

Evgeniy Golikov in RL reading group
Я думаю, атари игры слишком далеки друг от друга. Надо какие-нибудь лабиринты разные
источник

AG

Artem Grachev in RL reading group
ну только у них не брейкауты
источник

AP

Anton Pechenko in RL reading group
Игра в догонялки например в каком-то сложном окружении, наверное там как раз нужна стохастическая политика доже когда нам все известно
источник

AP

Anton Pechenko in RL reading group
Чтобы удивлять противника/ков
источник