Кстати, есть ли те кому приоритизация принесла значительный буст? У меня лично о ней сейчас такое мнение сложилось:
1. Когда все учились с одним сэмплером и хорошие сэмплы были на вес золота, она работала лучше обычных методов. Сейчас, когда мы запускаем десятки/сотни параллельных агентов, профита от неё не так уж и много.
2. Приоритизация может вносить нестабильность, что было замечено в ряде последних статей где анализируют расходимость всяких off-policy вещей.
В общем, кажется, что более простые и масштабируемые системы (к чему, например, движется OpenAI), лучше и надёжнее.