Телеграмм чат группы theoreticalrl страница 42

Size: a a a

RL reading group

1092 membersпожаловаться на группу

2017 November 24

Peter Romov in RL reading group

Anton Pechenko

не то чтобы можно было взять и за 5 минут это сделать)

зашипить фичу в код DeepMind так или иначе плюсует карму, с учетом того что многие из чата хотели бы там работать

источник

23:40пожаловаться #1

Anton Pechenko in RL reading group

@romovpa а ты как-то аффилирован с дипмайндом? Я бы такое мог сделать, но конкретно сейчас у меня хватает задачек с другими проектами/симуляторами. Со Стариком тоже планирую поиграться, но не сейчас

источник

23:45пожаловаться #2

Peter Romov in RL reading group

нет, не аффилирован

источник

23:45пожаловаться #3

2017 November 25

Pavel Shvechikov in RL reading group

Leave no Trace: Learning to Reset for Safe and Autonomous Reinforcement Learning
https://arxiv.org/abs/1711.06782

источник

19:47пожаловаться #4

Pavel Shvechikov in RL reading group

Bay Area Robotics Symposium
https://www.dropbox.com/s/4fhczb9cxkuqalf/2017_11_xx_BARS-Abbeel.pdf?dl=0

Dropbox

2017_11_xx_BARS-Abbeel.pdf

Shared with Dropbox

источник

21:36пожаловаться #5

Pavel Shvechikov in RL reading group

Небольшая преза про AlphaGoZero

источник

22:47пожаловаться #6

Pavel Shvechikov in RL reading group

Pavel Shvechikov in RL reading group

[1711.06006] Hindsight policy gradients
https://arxiv.org/abs/1711.06006
Улучшают sample efficiency методов policy gradient с помощью приема, аналогичного hindsight exp replay.

источник

22:54пожаловаться #8

АС

Артём С in RL reading group

А что за приём?

источник

23:13пожаловаться #9

2017 November 26

Pavel Shvechikov in RL reading group

Артём С

А что за приём?

1. Добавить на вход политике некоторую цель.
2. Сгенерировать опыт, преследую поставленную цель
3. Использовать этот опыт для обновления политики, которой на вход подаётся иная цель

Упрощая. Не достигнув поставленной цели, мы все равно достигли что-то. Притворимся, что это что-то и была наша цель. Тогда наши действия были оптимальны.

источник

22:42пожаловаться #10

2017 November 27

Anton Pechenko in RL reading group

Я помню такую статью на нашем ридинг клабе

источник

11:33пожаловаться #11

Evgeniy Golikov in RL reading group

Да, я её рассказывал😎

источник

14:19пожаловаться #12

Pavel Shvechikov in RL reading group

Коллеги, есть такое предложение.
Мы с Паниным сейчас готовим курс по обучению с подкреплением на курсере.
Для курса требуется человек-асистент, в его обязанности будет входить
До запуска вносить тексты в оболочку, описания, настраивать оценивание и тд. После запуска отвечать на вопросы на форуме.
Работа оплачиваемая. Напишите, пожалуйста, в личку, если Вам это интересно.

источник

14:54пожаловаться #13

Evgenii Zheltonozhsk... in RL reading group

свежак

источник

23:20пожаловаться #14

Evgenii Zheltonozhsk... in RL reading group

https://deepmind.com/blog/population-based-training-neural-networks/

Deepmind

Population based training of neural networks

Neural networks have shown great success in everything from playing Go and Atari games to image recognition and language translation. But often overlooked is that the success of a neural network at a particular application is often determined by a series of choices made at the start of the research, including what type of network to use and the data and method used to train it. Currently, these choices - known as hyperparameters - are chosen through experience, random search or a computationally intensive search processes.In our most recent paper, we introduce a new method for training neural networks which allows an experimenter to quickly choose the best set of hyperparameters and model for the task. This technique - known as Population Based Training (PBT) - trains and optimises a series of networks at the same time, allowing the optimal set-up to be quickly found. Crucially, this adds no computational overhead, can be done as quickly as traditional techniques and is easy to integrate into existing machine…