Телеграмм чат группы theoreticalrl страница 164

2019 September 28

P

https://openreview.net/pdf?id=B1lqDertwr

Набрёл вот ещё на статью. С целым параграфом в related work посвящённым регуляризации в RL.

Спасибо, Леш!

источник

00:38пожаловаться #1

2019 October 03

S

Shmuma in RL reading group

Вопрос к знатокам. Во всех виденных мной версиях класса NoisyLinear (линейный слой реализующий NoisyNetworks) сделана одна фундаментальная ошибка относительно метода описанного в статье. Шум сэмплируется на каждом вызове forward(), хотя, в статье написано что шум меняется только изредка.

Как мне кажется, это довольно существенно, так как если мы сэмплируем шум лишь иногда, мы работаем с ансамблем политик, каждая из которых генерирует нам свою траекторию. Но если мы передергиваем шум на каждый forward(), это уже не получается directed exploration, а по сути тот же самый epsilon-greedy, только параметризованный.

Я пока эти подходы не сравнивал, может кто-то до меня это заметил. Вот, например, две версии NoisyLinear (одна моя, другая из catalyst), и в обоих описанная проблема:
https://github.com/catalyst-team/catalyst/blob/f1a6b7e40b06abaf87de981508ee505bf355681d/catalyst/contrib/modules/noisy.py#L7

https://github.com/PacktPublishing/Deep-Reinforcement-Learning-Hands-On/blob/master/Chapter07/lib/dqn_model.py#L9

Хотя, как мне кажется, должно быть как-то так: https://github.com/PacktPublishing/Deep-Reinforcement-Learning-Hands-On-Second-Edition/blob/master/Chapter21/lib/dqn_extra.py#L19

GitHub

catalyst-team/catalyst

Accelerated DL & RL. Contribute to catalyst-team/catalyst development by creating an account on GitHub.

источник

20:50пожаловаться #2

AG

Aleksey Grinchuk in RL reading group

Как сэмплируется шум, зависит от метода обучения. Если метод offpolicy, то шум можно сэмплировать на каждом шаге и в статье так и написано. Если же метод onpolicy, то для получения несмещённой оценки градиента нужно зафиксировать параметр шума на всю траекторию.

источник

21:03пожаловаться #3

S

Shmuma in RL reading group

В offpolicy сеть обычно дергается не только для получения данных из среды, а еще и для вычисления ошибки и оценки Q(s'). В этих вызовах по идее, вообще шум не нужен

источник

21:14пожаловаться #4

P

Pavel Shvechikov in RL reading group

Shmuma

В offpolicy сеть обычно дергается не только для получения данных из среды, а еще и для вычисления ошибки и оценки Q(s'). В этих вызовах по идее, вообще шум не нужен

Для оценки Q_target(s') очень полезно шуметь — это регуляризует значения, на которые настраивается Q.

источник

22:08пожаловаться #5

2019 October 04

S

Shmuma in RL reading group

Хорошо, похоже тогда зря панику развел :)

источник

08:54пожаловаться #6

2019 October 08

VL

Vlad Lialin in RL reading group

Сегодня задался вопросом по transfer learning в RL. Кто-нибудь знает работы, где использовали его для выучивания нескольких тасков для одного агента (i.e. учим робота различным задачам)? И если кто-нибудь может дать список основных (или просто любимых) статей по transfer learning в RL, тоже буду благодарен.

с ходу нагуглил эту статью arxiv.org/pdf/1806.07377.pdf
но хочется больше и она не сильно релеватна именно тому, на что мне хочется посмотреть

источник

20:25пожаловаться #7

EZ

Evgenii Zheltonozhsk... in RL reading group

источник

20:26пожаловаться #8

ВР

Вячеслав Резяпкин... in RL reading group

Vlad Lialin

Сегодня задался вопросом по transfer learning в RL. Кто-нибудь знает работы, где использовали его для выучивания нескольких тасков для одного агента (i.e. учим робота различным задачам)? И если кто-нибудь может дать список основных (или просто любимых) статей по transfer learning в RL, тоже буду благодарен.

с ходу нагуглил эту статью arxiv.org/pdf/1806.07377.pdf
но хочется больше и она не сильно релеватна именно тому, на что мне хочется посмотреть

На эту тему есть пара лекций в курсе от беркли. В этой в конце видео есть несколько ссылок на статьи по multi-task learning
https://youtu.be/brLZ2ny40n4

YouTube

CS294-112 Fa18 10/24/18

источник

20:36пожаловаться #9

2019 October 09

VL

Vlad Lialin in RL reading group

Вячеслав Резяпкин

На эту тему есть пара лекций в курсе от беркли. В этой в конце видео есть несколько ссылок на статьи по multi-task learning
https://youtu.be/brLZ2ny40n4

YouTube

CS294-112 Fa18 10/24/18

Спасибо
Кажется, пока наконец-то пройти cs285

источник

04:09пожаловаться #10

I

I Апрельский... in RL reading group

Vlad Lialin

Спасибо
Кажется, пока наконец-то пройти cs285

Организовать курс ты имел в виду))

источник

07:53пожаловаться #11

L

Lx in RL reading group

Коллеги, кто хочет составить компанию и попробовать применить RL в трейдинге (рынок крипто валют)?
Сейчас уже сделал модели, которые имеют не плохую предсказательную способность об изменении рынка. Даже Простая Стратегия на их основе торгует в плюс. Хочется по верх моделей поставить RL. По деньгам - договоримся ;)

P.s. Задачка не простая) Но нашел пару готовых окружений по типу OpenAI Gym с бэктестом, это сильно упрощает задачу и позволяет формализовать ее до уровня обычного соревнования.

источник

18:53пожаловаться #12

EZ

Evgenii Zheltonozhsk... in RL reading group

Lx

Коллеги, кто хочет составить компанию и попробовать применить RL в трейдинге (рынок крипто валют)?
Сейчас уже сделал модели, которые имеют не плохую предсказательную способность об изменении рынка. Даже Простая Стратегия на их основе торгует в плюс. Хочется по верх моделей поставить RL. По деньгам - договоримся ;)

P.s. Задачка не простая) Но нашел пару готовых окружений по типу OpenAI Gym с бэктестом, это сильно упрощает задачу и позволяет формализовать ее до уровня обычного соревнования.

Хорошо что никто раньше об этом не подумал

источник

18:54пожаловаться #13

SA

See All in RL reading group

Evgenii Zheltonozhskii🇮🇱

Хорошо что никто раньше об этом не подумал

:D

источник

18:54пожаловаться #14

L

Lx in RL reading group