Size: a a a

RL reading group

2017 November 24

PR

Peter Romov in RL reading group
Anton Pechenko
не то чтобы можно было взять и за 5 минут это сделать)
зашипить фичу в код DeepMind так или иначе плюсует карму, с учетом того что многие из чата хотели бы там работать
источник

AP

Anton Pechenko in RL reading group
@romovpa а ты как-то аффилирован   с дипмайндом? Я бы такое мог сделать, но конкретно сейчас у меня хватает задачек с другими проектами/симуляторами. Со Стариком тоже планирую поиграться, но не сейчас
источник

PR

Peter Romov in RL reading group
нет, не аффилирован
источник
2017 November 25

P

Pavel Shvechikov in RL reading group
Leave no Trace: Learning to Reset for Safe and Autonomous Reinforcement Learning
https://arxiv.org/abs/1711.06782
источник

P

Pavel Shvechikov in RL reading group
источник

P

Pavel Shvechikov in RL reading group
Небольшая преза про AlphaGoZero
источник

P

Pavel Shvechikov in RL reading group
источник

P

Pavel Shvechikov in RL reading group
[1711.06006] Hindsight policy gradients
https://arxiv.org/abs/1711.06006
Улучшают sample efficiency методов policy gradient с помощью  приема, аналогичного hindsight exp replay.
источник

АС

Артём С in RL reading group
А что за приём?
источник
2017 November 26

P

Pavel Shvechikov in RL reading group
Артём С
А что за приём?
1. Добавить на вход политике некоторую цель.
2. Сгенерировать опыт, преследую поставленную цель
3. Использовать этот опыт для обновления политики, которой на вход подаётся иная цель

Упрощая. Не достигнув поставленной цели, мы все равно достигли что-то. Притворимся, что это  что-то  и была наша цель. Тогда наши действия были оптимальны.
источник
2017 November 27

AP

Anton Pechenko in RL reading group
Я помню такую статью на нашем ридинг клабе
источник

EG

Evgeniy Golikov in RL reading group
Да, я её рассказывал😎
источник

P

Pavel Shvechikov in RL reading group
Коллеги, есть такое предложение.
Мы с Паниным сейчас готовим курс по обучению с подкреплением на курсере.
Для курса требуется человек-асистент, в его обязанности будет входить
До запуска вносить тексты в оболочку, описания, настраивать оценивание и тд. После запуска отвечать на вопросы на форуме.
Работа оплачиваемая. Напишите, пожалуйста, в личку, если Вам это интересно.
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
свежак
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
источник
2017 November 28

P

Pavel Shvechikov in RL reading group
[1704.03732] Deep Q-learning from Demonstrations
https://arxiv.org/abs/1704.03732
источник

S

Shmuma in RL reading group
Quantile Regression на Pong, CDF одного состояния в процессе обучения: https://twitter.com/Shmuma/status/935531381907689472. Статья https://arxiv.org/abs/1710.10044, код: https://github.com/Shmuma/ptan/tree/master/samples/quantile_regression (еще корявенький, но вроде сходится)
источник
2017 November 29

C

Constantine in RL reading group
источник

V

Vadim in RL reading group
Пробовал?
источник

C

Constantine in RL reading group
примеры только смотрел. года 3 назад что-то подобное написал для личного пользования. но здесь игры интересней.
источник