Ребята, подскажите по поводу одного момента, я использую DDPG, действие у меня - это два неприрывных значения от -1 до 1, и часто алгоритм выходит за допустимый диапозон, если вставить например tanh, то он не выходит за диапазон, но при этом сходится к полярным действиям, то есть выдает или -1 или 1, при этом поведение в целом адекватное, то есть например в Carla машина едет как пьяная, но в нужную точку, то есть в этом случае правильными значениями были бы значения около 0, но сетка их почему-то не использует. Не подскажете почему так может быть?