Телеграмм чат группы theoreticalrl страница 61

Всем привет! А знаком ли кто-то с задачей RL в случае когда у нас есть ограничения на состояния? Т.е. я максимизирую всё ту же суммарную награду, но хочу запретить некоторые траектории. Например, я еду на машине из пункта А в пункт Б и хочу минимизировать затраты бензина. Однако на определённых участках есть ограничения скорости, которые я нарушать не хочу, плюс я хочу приехать за определённое время (эпизод заканчивается когда я прибываю в пункт назначения, но мне не желательны ситуации, когда я приезжаю раньше или опаздываю). Может ли кто-то посоветовать литературу на этот счёт?
P.S. Очевидное решение задать определённым образом функцию наград, чтобы она карала за такие случаи не работает.

источник

13:50пожаловаться #12

Alexander Novikov in RL reading group

https://arxiv.org/abs/1705.10528

arXiv.org

Constrained Policy Optimization

For many applications of reinforcement learning it can be more convenient to
specify both a reward function and constraints, rather than trying to design
behavior through the reward function. For...

источник

13:53пожаловаться #13

АС

Артём С in RL reading group

Кажется, тебя всё же интересуют ограничения на действия, ведь состояния тебе неподвластны

источник

13:53пожаловаться #14

Kirill Bobyrev in RL reading group

Недавно на реддите обсуждали случай, когда действия зависят от состояния, похоже на этот случай: https://www.reddit.com/r/reinforcementlearning/comments/7tnxk9/r_examples_of_deep_q_learning_where_action_space/

[R] Examples of Deep Q Learning where... • r/reinforcementlearning

5 points and 9 comments so far on reddit

источник

14:05пожаловаться #15

СВ

Сергей Власов... in RL reading group

Народ, в случае deepQlearning target net выполняет роль меток (как в обучении с учителем)?

источник

14:51пожаловаться #16

Aleksey Grinchuk in RL reading group

В каком-то смысле да, но только движущихся меток, т.к. всякий раз после обновления весов target network наши метки сдвигаются и решается новая задача обучения с учителем, правда, с более адекватного приближения чем если решать с нуля.

источник

14:55пожаловаться #17

СВ

Сергей Власов... in RL reading group

Aleksey Grinchuk

спасибо за ответ, хмм.... то есть на новый state метка даже уже и не правильная(ведь двиущийся предмет сместилс(

источник

15:24пожаловаться #18

Aleksey Grinchuk in RL reading group

Сложно сказать что значит правильная, а что значит нет, мы же метки по сути сами придумываем на основании нашей оценки Q-функции.

источник

15:26пожаловаться #19