хай гайз,
думаю ни для кого не секрет, что я немного пинаю RL и вот это все
и даже есть Catalyst.RL, который умеет в кучу алгоритмов быстро/качественно/надежно
а еще люблю воспроизводимость, конфиги и вот это все, чем DL так известен :kekeke: (привет Catalyst.DL)
короче говоря, на этой неделе я немного заморочился и решил запихнуть в наш CI не только DL convergence тесты, но еще и RL convergence тесты... reproducible RL - это больно, но если очень хочется - то можно
в общем, 🎉
в Catalyst CI теперь и агенты тренируются, и сходятся, да еще и на validation reward проверяются
по сути проверяется весь model free RL (PPO, DQN, DDPG, SAC, TD3), да еще и distributional value functions approximations впридачу...
в open-source travis CI, Карл!
в лучших традициях, ссылка на твит, пиара ради :good-enough:
https://twitter.com/Scitator/status/1150404821004034048?s=20PS. комон, не каждый день reproducible RL подвозят, да и пропиарить такое действительно надо бы
:tnx: