Size: a a a

RL reading group

2019 June 30

P

Pavel Shvechikov in RL reading group
Классика — атари на one frame per step + flickering (на вход черный экран с вероятностью 0.5)
Альтернативы — VIzdoom, среды из DMLab (почти все, но особенно pool — круглый бассейн, где выключили свет и нужно найти маячок, ориентируясь только по стенам)
источник
2019 July 01

K

Kolyan in RL reading group
> RL станет­ темой номер 1 в 2020-м году
а к этому есть предпосылки? что-то недавно кардинально улучшилось?
источник

П

Пётр in RL reading group
Ставлю, что темой номер 1 или GANы или адверсариал будут.
источник

A

Alexander O in RL reading group
Количество выступлений в RL reading group почему-то значительно меньше, чем в прошлом году.
источник

A

Alexander O in RL reading group
есть дискорд RL group, где участников много, но постов все равно не так много как хотелось бы https://discord.gg/QQ2btK
источник

AS

Artyom Sorokin in RL reading group
> что-то недавно кардинально улучшилось?
Алгоритмы играют лучше вроде, но не то что бы какой-то прорыв был их скорее теперь тренеруют не по 80кк(A3C, DQN) шагов, а по 10ккк(R2D2, APE-X) шагов и все распределенное.
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
Artyom Sorokin
> что-то недавно кардинально улучшилось?
Алгоритмы играют лучше вроде, но не то что бы какой-то прорыв был их скорее теперь тренеруют не по 80кк(A3C, DQN) шагов, а по 10ккк(R2D2, APE-X) шагов и все распределенное.
То есть ещё меньше людей могут в соту)
источник

AS

Artyom Sorokin in RL reading group
Да, я уже какую статью высаживаюсь.
»Ой смотрите какой у нас высокий score в монтезума!! Теперь решить эту задачу гораздо легче, нужно всего лишь тренировать агента 2 миллиарда шагов!
» У нас высочайший скор на atari 57! После 10 миллиардов шагов!
И все это с графиками которые не по количеству апдейтов сети, и не по шагам взаимодействия со средой, а  wall time на гугловских суперкомпьютерах...
источник

MG

Maria Garkavenko in RL reading group
Artyom Sorokin
Да, я уже какую статью высаживаюсь.
»Ой смотрите какой у нас высокий score в монтезума!! Теперь решить эту задачу гораздо легче, нужно всего лишь тренировать агента 2 миллиарда шагов!
» У нас высочайший скор на atari 57! После 10 миллиардов шагов!
И все это с графиками которые не по количеству апдейтов сети, и не по шагам взаимодействия со средой, а  wall time на гугловских суперкомпьютерах...
Графики по wall time? Мда далеко там рл ушёл, пока я за ним не следила
источник

A

Alexander O in RL reading group
Мне кажется аргумент про то, что это группа в 500 человек не очень релевантный. Так на любой пост можно сказать, что он не всем релевантный и давайте его удалять. Я считаю, что и так тут прямо мало сообщений, на столько человек, обычно в группах поменьше и по 100 сообщений в день идет, а тут не так часто. Я думаю, что у всех и так канал этот замютен, а основные сообщения-обьявления можно через pin-сообщений доносить.
источник

c

cydoroga in RL reading group
Коллеги, прошу, пожалуйста, остановить дискуссию
Мое личное мнение, что не очень хорошо рекламировать в одном чате просто другие чаты без каких-то дополнительных штук
Это не ссылки на имплементации, не осмысленное обсуждение
Мне кажется, явных предпосылок переходить на дискорд на данный момент нет
источник
2019 July 03

P

Pavel Shvechikov in RL reading group
Ребята, а кто-какие знает руководства по reward engineering? Интересует все — начиная от дизайна наград для произвольной новой среды, заканчивая преобразованиями наград перед тем, как пихать в RL алгоритм.
reward shaping (NG, 1999) и всякие Human Compatible AI papers не предлагать.
источник

AP

Alexey Poddiachyi in RL reading group
Pavel Shvechikov
Ребята, а кто-какие знает руководства по reward engineering? Интересует все — начиная от дизайна наград для произвольной новой среды, заканчивая преобразованиями наград перед тем, как пихать в RL алгоритм.
reward shaping (NG, 1999) и всякие Human Compatible AI papers не предлагать.
На курсере есть Practical Reinforcement Learning. Там пару лекций этому посвящено. Обзорно, конечно, но достаточно полезно. И там же пару статей они приводят на эту тему.
источник

P

Pavel Shvechikov in RL reading group
Alexey Poddiachyi
На курсере есть Practical Reinforcement Learning. Там пару лекций этому посвящено. Обзорно, конечно, но достаточно полезно. И там же пару статей они приводят на эту тему.
Если бы еще не я их читал (
источник

CP

Cherry Pie in RL reading group
Это очень забавно, когда одному из создателей курса предлагают посмотреть свой же курс
источник

АС

Артём С in RL reading group
Ну мало ли, вдруг забыл! Люди блоги заводят, чтобы для самих себя заметки на будущее делать, может Паша для этого видеокурс сделал
источник

AP

Alexey Poddiachyi in RL reading group
Ахаха, сори, даже не смотрел на имя
источник
2019 July 04

DN

Dmitry Nikulin in RL reading group
Pavel Shvechikov
Ребята, а кто-какие знает руководства по reward engineering? Интересует все — начиная от дизайна наград для произвольной новой среды, заканчивая преобразованиями наград перед тем, как пихать в RL алгоритм.
reward shaping (NG, 1999) и всякие Human Compatible AI papers не предлагать.
А что плохого в этих статьях? Не считая того, что список устарел на два года
источник

P

Pavel Shvechikov in RL reading group
Dmitry Nikulin
А что плохого в этих статьях? Не считая того, что список устарел на два года
Конкретно эти не смотрел.
Обычно статьи от них наполнены философией будущего, а не технической информацией.
источник
2019 July 05

P

Pavel Shvechikov in RL reading group
Переслано от Dmitry Nikulin
Было бы очень круто tldr для всего этого, хотя бы пару предложений
источник