Size: a a a

RL reading group

2018 January 24

AG

Artem Grachev in RL reading group
так что всё ok)
источник

C

Constantine in RL reading group
веселый канал. надо почаще заглядывать ).
источник

AP

Anton Pechenko in RL reading group
У меня стек переполняется от таких рассуждений)
источник

AP

Anton Pechenko in RL reading group
А если вопрос поставить так: мы выдаём число, а противник - например рекуррентная сетка пытается его угадать, не будет ли тогда оптимальной стохастическая политика если мы знаем стейт сетки?
источник

AP

Anton Pechenko in RL reading group
Она же тоже будет под нас подстраиваться и стратегии в духе выдать предсказываемое сеткой число + 1 не пройдут. Но тут детерминированность тоже есть, мы детерменированно сэмплим из равномерного распределения
источник
2018 January 25

P

Pavel Shvechikov in RL reading group
Anton Pechenko
Она же тоже будет под нас подстраиваться и стратегии в духе выдать предсказываемое сеткой число + 1 не пройдут. Но тут детерминированность тоже есть, мы детерменированно сэмплим из равномерного распределения
Я бы сказал, что это вариация игры камень-ножницы-бумага.
источник

P

Pavel Shvechikov in RL reading group
Dmitry Persiyanov
В многоруком бандите же детерминированная оптимальная, нет?
Может быть в нестационарном бандите? Где распределение ревордов постоянно меняется (но это не классическая RL постановка)
Нестационарный бандит это интересно. Кажется тут  стохастичность вызвана исследованием среды, которое никогда не  заканчивается.
источник

P

Pavel Shvechikov in RL reading group
Кто-нибудь знает, что считается SOTA в подобном нестационарном RL?
источник

DP

Dmitry Persiyanov in RL reading group
Да и вообще в целом наверное можно обобщить до меняющейся динамики среды и реворда -- p_t(s' | s, a) и r_t(s, a)
источник

AG

Aleksey Grinchuk in RL reading group
источник

P

Pavel Shvechikov in RL reading group
Коллеги, знаете ли вы какую-нибудь меру похожести двух тректорий?
источник

АС

Артём С in RL reading group
Цена optimal transport'а одной в другую (-:
источник

LG

Leonid Gremyachikh in RL reading group
Например, расстояние до идеальной
источник

СВ

Сергей Власов... in RL reading group
Для любителей извращений можно mse
источник

P

Pavel Shvechikov in RL reading group
Артём С
Цена optimal transport'а одной в другую (-:
Это действительно интересно. Особенно учитывая, что стоимость перемещения задаётся достаточно естественно.
источник

DP

Dmitry Persiyanov in RL reading group
А что такое "цена optimal transport'a"? Можно ссылочку?
источник

AG

Alexander Grishin in RL reading group
Я бы предполагал что-то подобное:
Пусть есть биекция f между кривыми, тогда
distance = минимум по таким биекциям \int || f(x) - x || dx, где интеграл берется вдоль траектории
источник

AG

Alexander Grishin in RL reading group
довольно естественно
источник

AG

Alexander Grishin in RL reading group
ну да, в некотором роде похоже на метрику вассерштайна
источник

АС

Артём С in RL reading group
Оно и есть, да
источник