Size: a a a

RL reading group

2019 September 28

P

Pavel Shvechikov in RL reading group
Aleksey Grinchuk
https://openreview.net/pdf?id=B1lqDertwr

Набрёл вот ещё на статью. С целым параграфом в related work посвящённым регуляризации в RL.
Спасибо, Леш!
источник
2019 October 03

S

Shmuma in RL reading group
Вопрос к знатокам. Во всех виденных мной версиях класса NoisyLinear (линейный слой реализующий NoisyNetworks) сделана одна фундаментальная ошибка относительно метода описанного в статье. Шум сэмплируется на каждом вызове forward(), хотя, в статье написано что шум меняется только изредка.

Как мне кажется, это довольно существенно, так как если мы сэмплируем шум лишь иногда, мы работаем с ансамблем политик, каждая из которых генерирует нам свою траекторию. Но если мы передергиваем шум на каждый forward(), это уже не получается directed exploration, а по сути тот же самый epsilon-greedy, только параметризованный.

Я пока эти подходы не сравнивал, может кто-то до меня это заметил. Вот, например, две версии NoisyLinear (одна моя, другая из catalyst), и в обоих описанная проблема:
https://github.com/catalyst-team/catalyst/blob/f1a6b7e40b06abaf87de981508ee505bf355681d/catalyst/contrib/modules/noisy.py#L7

https://github.com/PacktPublishing/Deep-Reinforcement-Learning-Hands-On/blob/master/Chapter07/lib/dqn_model.py#L9

Хотя, как мне кажется, должно быть как-то так: https://github.com/PacktPublishing/Deep-Reinforcement-Learning-Hands-On-Second-Edition/blob/master/Chapter21/lib/dqn_extra.py#L19
источник

AG

Aleksey Grinchuk in RL reading group
Как сэмплируется шум, зависит от метода обучения. Если метод offpolicy, то шум можно сэмплировать на каждом шаге и в статье так и написано. Если же метод onpolicy, то для получения несмещённой оценки градиента нужно зафиксировать параметр шума на всю траекторию.
источник

S

Shmuma in RL reading group
В offpolicy сеть обычно дергается не только для получения данных из среды, а еще и для вычисления ошибки и оценки Q(s'). В этих вызовах по идее, вообще шум не нужен
источник

P

Pavel Shvechikov in RL reading group
Shmuma
В offpolicy сеть обычно дергается не только для получения данных из среды, а еще и для вычисления ошибки и оценки Q(s'). В этих вызовах по идее, вообще шум не нужен
Для оценки Q_target(s') очень полезно шуметь — это регуляризует значения, на которые настраивается Q.
источник
2019 October 04

S

Shmuma in RL reading group
Хорошо, похоже тогда зря панику развел :)
источник
2019 October 08

VL

Vlad Lialin in RL reading group
Сегодня задался вопросом по transfer learning в RL. Кто-нибудь знает работы, где использовали его для выучивания нескольких тасков для одного агента (i.e. учим робота различным задачам)? И если кто-нибудь может дать список основных (или просто любимых) статей по transfer learning в RL, тоже буду благодарен.

с ходу нагуглил эту статью arxiv.org/pdf/1806.07377.pdf
но хочется больше и она не сильно релеватна именно тому, на что мне хочется посмотреть
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
источник

ВР

Вячеслав Резяпкин... in RL reading group
Vlad Lialin
Сегодня задался вопросом по transfer learning в RL. Кто-нибудь знает работы, где использовали его для выучивания нескольких тасков для одного агента (i.e. учим робота различным задачам)? И если кто-нибудь может дать список основных (или просто любимых) статей по transfer learning в RL, тоже буду благодарен.

с ходу нагуглил эту статью arxiv.org/pdf/1806.07377.pdf
но хочется больше и она не сильно релеватна именно тому, на что мне хочется посмотреть
На эту тему есть пара лекций в курсе от беркли. В этой в конце видео есть несколько ссылок на статьи по multi-task learning
https://youtu.be/brLZ2ny40n4
источник
2019 October 09

VL

Vlad Lialin in RL reading group
Вячеслав Резяпкин
На эту тему есть пара лекций в курсе от беркли. В этой в конце видео есть несколько ссылок на статьи по multi-task learning
https://youtu.be/brLZ2ny40n4
Спасибо
Кажется, пока наконец-то пройти cs285
источник

I

I Апрельский... in RL reading group
Vlad Lialin
Спасибо
Кажется, пока наконец-то пройти cs285
Организовать курс ты имел в виду))
источник

L

Lx in RL reading group
Коллеги, кто хочет составить компанию и попробовать применить RL в трейдинге (рынок крипто валют)?
Сейчас уже сделал модели, которые имеют не плохую предсказательную способность об изменении рынка. Даже Простая Стратегия на их основе торгует в плюс. Хочется по верх моделей поставить RL. По деньгам - договоримся ;)

P.s. Задачка не простая) Но нашел пару готовых окружений по типу OpenAI Gym с бэктестом, это сильно упрощает задачу и позволяет формализовать ее до уровня обычного соревнования.
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
Lx
Коллеги, кто хочет составить компанию и попробовать применить RL в трейдинге (рынок крипто валют)?
Сейчас уже сделал модели, которые имеют не плохую предсказательную способность об изменении рынка. Даже Простая Стратегия на их основе торгует в плюс. Хочется по верх моделей поставить RL. По деньгам - договоримся ;)

P.s. Задачка не простая) Но нашел пару готовых окружений по типу OpenAI Gym с бэктестом, это сильно упрощает задачу и позволяет формализовать ее до уровня обычного соревнования.
Хорошо что никто раньше об этом не подумал
источник

SA

See All in RL reading group
Evgenii Zheltonozhskii🇮🇱
Хорошо что никто раньше об этом не подумал
:D
источник

L

Lx in RL reading group
Evgenii Zheltonozhskii🇮🇱
Хорошо что никто раньше об этом не подумал
😂 Думают многие, мало кто на самом деле что-то делает)
источник

A

Alexey in RL reading group
Я делал! 😂
источник

L

Lx in RL reading group
Alexey
Я делал! 😂
и как успехи?)
источник

A

Alexey in RL reading group
У инвесторов закончились деньги 😒
источник

L

Lx in RL reading group
из того что видел в свободном доступе - Все пытаються на бедный RL свалить все сразу) просто подавая цену рынка
источник

АС

Артём С in RL reading group
источник