Сейчас я задам, наверное, слегда странный вопрос, но в каком-либо алгоритме RL используется ли policy сама по себе?
Я сейчас делаю для себя простенький интерфейс для RL моделей и заметил, что либо нужно действие сэмплируемое из policy, либо log p(action|policy, state), а policy сама по себе как "приватная переменная/метод" выступает.