Всем привет! А знаком ли кто-то с задачей RL в случае когда у нас есть ограничения на состояния? Т.е. я максимизирую всё ту же суммарную награду, но хочу запретить некоторые траектории. Например, я еду на машине из пункта А в пункт Б и хочу минимизировать затраты бензина. Однако на определённых участках есть ограничения скорости, которые я нарушать не хочу, плюс я хочу приехать за определённое время (эпизод заканчивается когда я прибываю в пункт назначения, но мне не желательны ситуации, когда я приезжаю раньше или опаздываю). Может ли кто-то посоветовать литературу на этот счёт?
P.S. Очевидное решение задать определённым образом функцию наград, чтобы она карала за такие случаи не работает.