Решил прочитать еще раз статью Deterministic Policy Gradients и удивился, что в доказательстве DPG теоремы требуется непрерывность функции награды r(s, a) и ее градиента dr/da (
http://proceedings.mlr.press/v32/silver14-supp.pdf -- тут док-во теоремы в пункте B, условия A1).
На практике ведь встречаются задачи с непрерывным пространством действий, где функция наград не непрерывна? Типа, например, нужно руку робота в какую-то область загнать и награда бинарная (в области или нет).
Может ли кто-то из людей, у которых есть опыт в continuous action spaces поделиться, норм (D)DPG работает в таких случаях или действительно начинает лажать? Или на практике наоборот пытаются сделать непрерывный и дифференцируемый реворд (типа расстояния до области в вышеприведенном примере)?