Классика — атари на one frame per step + flickering (на вход черный экран с вероятностью 0.5) Альтернативы — VIzdoom, среды из DMLab (почти все, но особенно pool — круглый бассейн, где выключили свет и нужно найти маячок, ориентируясь только по стенам)
> что-то недавно кардинально улучшилось? Алгоритмы играют лучше вроде, но не то что бы какой-то прорыв был их скорее теперь тренеруют не по 80кк(A3C, DQN) шагов, а по 10ккк(R2D2, APE-X) шагов и все распределенное.
> что-то недавно кардинально улучшилось? Алгоритмы играют лучше вроде, но не то что бы какой-то прорыв был их скорее теперь тренеруют не по 80кк(A3C, DQN) шагов, а по 10ккк(R2D2, APE-X) шагов и все распределенное.
Да, я уже какую статью высаживаюсь. »Ой смотрите какой у нас высокий score в монтезума!! Теперь решить эту задачу гораздо легче, нужно всего лишь тренировать агента 2 миллиарда шагов! » У нас высочайший скор на atari 57! После 10 миллиардов шагов! И все это с графиками которые не по количеству апдейтов сети, и не по шагам взаимодействия со средой, а wall time на гугловских суперкомпьютерах...
Да, я уже какую статью высаживаюсь. »Ой смотрите какой у нас высокий score в монтезума!! Теперь решить эту задачу гораздо легче, нужно всего лишь тренировать агента 2 миллиарда шагов! » У нас высочайший скор на atari 57! После 10 миллиардов шагов! И все это с графиками которые не по количеству апдейтов сети, и не по шагам взаимодействия со средой, а wall time на гугловских суперкомпьютерах...
Графики по wall time? Мда далеко там рл ушёл, пока я за ним не следила
Мне кажется аргумент про то, что это группа в 500 человек не очень релевантный. Так на любой пост можно сказать, что он не всем релевантный и давайте его удалять. Я считаю, что и так тут прямо мало сообщений, на столько человек, обычно в группах поменьше и по 100 сообщений в день идет, а тут не так часто. Я думаю, что у всех и так канал этот замютен, а основные сообщения-обьявления можно через pin-сообщений доносить.
Коллеги, прошу, пожалуйста, остановить дискуссию Мое личное мнение, что не очень хорошо рекламировать в одном чате просто другие чаты без каких-то дополнительных штук Это не ссылки на имплементации, не осмысленное обсуждение Мне кажется, явных предпосылок переходить на дискорд на данный момент нет
Ребята, а кто-какие знает руководства по reward engineering? Интересует все — начиная от дизайна наград для произвольной новой среды, заканчивая преобразованиями наград перед тем, как пихать в RL алгоритм. reward shaping (NG, 1999) и всякие Human Compatible AI papers не предлагать.
Ребята, а кто-какие знает руководства по reward engineering? Интересует все — начиная от дизайна наград для произвольной новой среды, заканчивая преобразованиями наград перед тем, как пихать в RL алгоритм. reward shaping (NG, 1999) и всякие Human Compatible AI papers не предлагать.
На курсере есть Practical Reinforcement Learning. Там пару лекций этому посвящено. Обзорно, конечно, но достаточно полезно. И там же пару статей они приводят на эту тему.
На курсере есть Practical Reinforcement Learning. Там пару лекций этому посвящено. Обзорно, конечно, но достаточно полезно. И там же пару статей они приводят на эту тему.
Ребята, а кто-какие знает руководства по reward engineering? Интересует все — начиная от дизайна наград для произвольной новой среды, заканчивая преобразованиями наград перед тем, как пихать в RL алгоритм. reward shaping (NG, 1999) и всякие Human Compatible AI papers не предлагать.
А что плохого в этих статьях? Не считая того, что список устарел на два года