Телеграмм чат группы theoreticalrl страница 60

А если вопрос поставить так: мы выдаём число, а противник - например рекуррентная сетка пытается его угадать, не будет ли тогда оптимальной стохастическая политика если мы знаем стейт сетки?

источник

22:52пожаловаться #4

Anton Pechenko in RL reading group

Она же тоже будет под нас подстраиваться и стратегии в духе выдать предсказываемое сеткой число + 1 не пройдут. Но тут детерминированность тоже есть, мы детерменированно сэмплим из равномерного распределения

источник

22:55пожаловаться #5

2018 January 25

Pavel Shvechikov in RL reading group

Anton Pechenko

Я бы сказал, что это вариация игры камень-ножницы-бумага.

источник

10:11пожаловаться #6

Pavel Shvechikov in RL reading group

Dmitry Persiyanov

В многоруком бандите же детерминированная оптимальная, нет?
Может быть в нестационарном бандите? Где распределение ревордов постоянно меняется (но это не классическая RL постановка)

Нестационарный бандит это интересно. Кажется тут стохастичность вызвана исследованием среды, которое никогда не заканчивается.

источник

10:13пожаловаться #7

Pavel Shvechikov in RL reading group

Кто-нибудь знает, что считается SOTA в подобном нестационарном RL?

источник

10:13пожаловаться #8

Dmitry Persiyanov in RL reading group

Да и вообще в целом наверное можно обобщить до меняющейся динамики среды и реворда -- p_t(s' | s, a) и r_t(s, a)

источник

10:16пожаловаться #9

Aleksey Grinchuk in RL reading group

https://www.wired.com/story/tencent-software-beats-go-champ-showing-chinas-ai-gains/

WIRED

Tencent Software Beats Go Champ, Showing China's AI Gains

China is making a national push in artificial intelligence. A program from one of its biggest internet companies, Tencent, just beat a world champion at Go.

источник

12:07пожаловаться #10

Pavel Shvechikov in RL reading group

Коллеги, знаете ли вы какую-нибудь меру похожести двух тректорий?

источник

15:30пожаловаться #11

АС

Артём С in RL reading group

Цена optimal transport'а одной в другую (-:

источник

15:31пожаловаться #12

Leonid Gremyachikh in RL reading group

Например, расстояние до идеальной

источник

16:11пожаловаться #13

СВ

Сергей Власов... in RL reading group

Для любителей извращений можно mse

источник

16:42пожаловаться #14

Pavel Shvechikov in RL reading group

Артём С

Цена optimal transport'а одной в другую (-:

Это действительно интересно. Особенно учитывая, что стоимость перемещения задаётся достаточно естественно.

источник

16:47пожаловаться #15

Dmitry Persiyanov in RL reading group

А что такое "цена optimal transport'a"? Можно ссылочку?

источник

17:18пожаловаться #16

Alexander Grishin in RL reading group

Я бы предполагал что-то подобное:
Пусть есть биекция f между кривыми, тогда
distance = минимум по таким биекциям \int || f(x) - x || dx, где интеграл берется вдоль траектории

источник

17:23пожаловаться #17

Alexander Grishin in RL reading group

довольно естественно

источник

17:23пожаловаться #18

Alexander Grishin in RL reading group

ну да, в некотором роде похоже на метрику вассерштайна

источник

17:24пожаловаться #19

АС

Артём С in RL reading group

Оно и есть, да

источник

17:25пожаловаться #20