Телеграмм чат группы theoreticalrl страница 57

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

RL reading group

1092 membersпожаловаться на группу

1
«
…
‹
52
53
54
55
56
57
58
›
…
»

2018 January 24

P

Pavel Shvechikov in RL reading group

Ну вообще выглядит странно. Потому что тогда вообще непонятно, что там с оптимальными политиками

Возможно Женя хотел сказать, что искать оптимальную политику в некотором классе (т.е. при ограничениях). Тогда, действительно, оптимальной может оказаться стохастическая.
Но это тоже своеобразная экзотика

источник

21:58пожаловаться #1

EG

Evgeniy Golikov in RL reading group

Нет, я хотел сказать, что оптимальная-то в новой среде детерминированная, но мы не можем точно сказать, какая, так как всё время крутимся в старой

источник

22:00пожаловаться #2

P

Pavel Shvechikov in RL reading group

Т.е. ограничены в классе политик, которые можно выучить в старой

источник

22:01пожаловаться #3

AG

Artem Grachev in RL reading group

а пример можешь привести?
Просто там было замечание про меру близости, без него я вообще себе это с трудом представляю. Если есть возможность как-то померять близость, то наверное что-то придумать можно, но я пока не смог.

источник

22:02пожаловаться #4

AG

Artem Grachev in RL reading group

Ну без меры близости, понятно, вообще ничего нельзя сказать и остается только оптимизировать детерминированную policy для известной среды.

источник

22:04пожаловаться #5

EG

Evgeniy Golikov in RL reading group

Почему ограничены? Можно выбрать какой-нибудь дикий метод обучения, который может привести к какой угодно политике

источник

22:04пожаловаться #6

EG

Evgeniy Golikov in RL reading group

Мне кажется, вопрос о мере близости ещё не исследован)

источник

22:05пожаловаться #7

EG

Evgeniy Golikov in RL reading group

Может быть, для простых MDP что-то можно сказать

источник

22:05пожаловаться #8

P

Pavel Shvechikov in RL reading group

Evgeniy Golikov

Почему ограничены? Можно выбрать какой-нибудь дикий метод обучения, который может привести к какой угодно политике

Что-то Жень ты странное толкаешь : )

источник

22:05пожаловаться #9

AG

Artem Grachev in RL reading group

Evgeniy Golikov

Мне кажется, вопрос о мере близости ещё не исследован)

ну я на эвристиках пытался.
Короче, там всё очень плохо...

источник

22:05пожаловаться #10

AP

Anton Pechenko in RL reading group

Например когда мы играем против противника, который адаптируется к нашему поведению, то о нем известно что он определит и отконтрит нашу политику, при этом знания о нем будут даны, это же тогда mdp?

источник

22:05пожаловаться #11

AP

Anton Pechenko in RL reading group

Тогда надо действовать стохастически

источник

22:06пожаловаться #12

AG

Artem Grachev in RL reading group

В общем, я с помощью image transformation пытался свести breakout к понгу или наоборот и полиси с одной среды на другую нифига не переносится.

источник

22:06пожаловаться #13

AG

Artem Grachev in RL reading group

хотя картинки там получались ну +- похожие

источник

22:06пожаловаться #14

AP

Anton Pechenko in RL reading group

Можно наверное попробовать разные брейкауты

источник

22:07пожаловаться #15

AG

Artem Grachev in RL reading group

да, это делает DeepMind

источник

22:07пожаловаться #16

EG

Evgeniy Golikov in RL reading group

Я думаю, атари игры слишком далеки друг от друга. Надо какие-нибудь лабиринты разные

источник

22:07пожаловаться #17

AG

Artem Grachev in RL reading group

ну только у них не брейкауты

источник

22:07пожаловаться #18

AP

Anton Pechenko in RL reading group

Игра в догонялки например в каком-то сложном окружении, наверное там как раз нужна стохастическая политика доже когда нам все известно

источник

22:10пожаловаться #19

AP

Anton Pechenko in RL reading group

Чтобы удивлять противника/ков

источник

22:11пожаловаться #20

1
«
…
‹
52
53
54
55
56
57
58
›
…
»