Телеграмм чат группы theoreticalrl страница 64

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

RL reading group

1092 membersпожаловаться на группу

1
«
…
‹
59
60
61
62
63
64
65
›
…
»

2018 February 06

S

Shmuma in RL reading group

Ну и quantille regression должна еще лучше результат давать (так как нет огрубления связанного с проецированием на атомы), но я так и не заставил ее работать у себя.

источник

13:32пожаловаться #1

P

Pavel Shvechikov in RL reading group

Но ведь этой одной цифры вполне достаточно, чтобы решить задачу оптимально.
И мое имхо в том, что distributional RL улучшает только качество аппроксимации Q / V.
Наподобие того, как иногда задачу регрессии в deep learning решают с помощью приведения к задаче классификации на бакеты и софтмаксом на выходе сети.
Quantile на мой взгляд делает еще доп улучшение в том, что работает с более рабастным лоссом, избавляясь от нестабильностей MSE и добавляя сглаживание с помощью функции Huber. (Правда тут отдельно стоит заметить утверждение про композицию операторов проектции и оператора Беллмана)
Бимодальное распределение наград для Q(s, a1) и Q(s,a2) не имеет никакого смысла, если решение принимается в любом случае по среднему.
Аргументы про risk-averse я тоже не считаю состоятельными. Если у нас стоит такая задача, проблема решается ввдеением дополнительной ф.п. за дисперсию (отдельным ее моделированием) и по сути не требует моделирования всего распределения.
Поправьте меня, пожалуйста, те, кто знаком с distributional RL.

источник

13:40пожаловаться #2

AP

Anton Pechenko in RL reading group

Я не особо знаком, но как насчёт задачи объезда препятствия? Когда это можно сделать справа или слева, среднее - это прямо в препятствие

источник

13:45пожаловаться #3

AP

Anton Pechenko in RL reading group

А а случае распределения - это два холма

источник

13:45пожаловаться #4

c

cydoroga in RL reading group

Но одной цифрой решить можно — едь слева и все

источник

13:46пожаловаться #5

AP

Anton Pechenko in RL reading group

Но как произвести выбор?

источник

13:46пожаловаться #6

AG

Aleksey Grinchuk in RL reading group

Huber Loss вместо MSE используется во многих реимплементациях DQN и его аналогов. Видел даже как в статьях пишут обычный MSE в формулах, но в экспериментальной части пишут “ну, мы взяли хубер вместо мсе”. Хубер обычно лучше результаты даёт.

А вот сам квантильный лосс — штука очень интересная. Правда, понадобилось некоторое время и усилия чтобы понять что это такое (:

источник

14:13пожаловаться #7

S

Shmuma in RL reading group

@ipaulo с точки зрения теории, да, одной цифры достаточно, но вот "разница между теорией и практикой отсутствует только в теории". Если один метод сходится за день, а другой за год, они оба сходятся, но для практики, второй все равно что не сходится, так как терпения не хватит. Так что, скорее всего ты и прав, но даже простое улучшение аппроксимации это большой шаг вперед, просто потому что можно получать лучший результат за конечное время. В RL и ML вообще же куча шаманства, сам знаешь. Тут подкрутили, там подвертели, вроде круто, опубликовались.

источник

14:19пожаловаться #8

P

Pavel Shvechikov in RL reading group

@ipaulo с точки зрения теории, да, одной цифры достаточно, но вот "разница между теорией и практикой отсутствует только в теории". Если один метод сходится за день, а другой за год, они оба сходятся, но для практики, второй все равно что не сходится, так как терпения не хватит. Так что, скорее всего ты и прав, но даже простое улучшение аппроксимации это большой шаг вперед, просто потому что можно получать лучший результат за конечное время. В RL и ML вообще же куча шаманства, сам знаешь. Тут подкрутили, там подвертели, вроде круто, опубликовались.

Да я за любые работы ))
Я просто пытаюсь понять, чем конкретно эти методы хороши. Они то не пишут в статьях, что вот де мы просто улучшили точность аппроксимации в задаче регрессии и больше ничего не сделали.
Но сдается мне что есть ещё что-то и на теоретическом уровне.
Например, если глянуть на график точности аппроксимации среднего в статье про quantile distributional, то там хорошо видно, что качество аппроксимации средего НЕ лучше, чем обычная unovariate регрессия на остатки Беллмана.
Однако разброс (вроде бы) меньше. Так отчего всё-таки успех? Из-за уменьшения дисперсии оценки среднего?

источник

14:42пожаловаться #9

S

Shmuma in RL reading group

Я думаю, это могло бы стать отличной темой для отдельного исследования :). А то все в статьях одни и те же рожи, да чехарда: deepmind-openai-deepmind-berkeley-openai. Какие-нибудь TU Delft вклинятся со статьей про то как cartpole улучшить слегка и все опять: deepmind-openai...

источник

14:45пожаловаться #10

AG

Aleksey Grinchuk in RL reading group

Кроме DeepMind, OpeanAI и BAIR есть очень годные статьи ребят из университета Мичигана. Быть может, они не такие мейнстримные, но мне они нравятся. Там, правда, математики нет, в основном всякие архитектурные трюки, но эксперименты красивые.
https://sites.google.com/a/umich.edu/junhyuk-oh/

источник

14:50пожаловаться #11

АС

Артём С in RL reading group

Просто как только в этой чехарде появляется новое лицо, оно вскоре поглощается одной из крупных групп

источник

14:54пожаловаться #12

AG

Aleksey Grinchuk in RL reading group

Seems so ):

источник

14:58пожаловаться #13

P

Pavel Shvechikov in RL reading group

Oh очень давно занимется RL. И занимается им хорошо.

источник

15:48пожаловаться #14

S

Shmuma in RL reading group

Сравнение A3C, DDPG и D4PG на разном наборе сред. https://arxiv.org/abs/1801.00690 TL;DR: D4PG всех победил

источник

16:43пожаловаться #15

P

Pavel Shvechikov in RL reading group

Ребят, кто может посоветовать годноты почитать по model-based RL? Можно даже не deep, если прям годнота)

Model-Ensemble Trust-Region Policy Optimization
https://openreview.net/forum?id=SJJinbWRZ

источник

18:16пожаловаться #16

c

cydoroga in RL reading group

Pavel Shvechikov

Model-Ensemble Trust-Region Policy Optimization
https://openreview.net/forum?id=SJJinbWRZ

Спасибо!

источник

19:07пожаловаться #17

SS

Sergey Sviridov in RL reading group

IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures
https://arxiv.org/abs/1802.01561

источник

23:27пожаловаться #18

2018 February 07

c

cydoroga in RL reading group

Товарищи, в этот четверг, в ШАДе, Оксфорд
В 19:00
Мы послушаем доклад Михаила Конобеева про статью Equivalence Between Policy-Gradients and Soft Q-learning.
https://arxiv.org/abs/1704.06440
Это продолжение выступления, которым мы закончили прошлый год

Успех value-based методов в современном обучении с подкреплением оказывается не до конца обоснованным. Возможное объяснение их работы
заключается в том, что данные методы скрыто проводят обновления параметров схожие с обновлениями согласно policy-gradient методам. В статье доказывается эквивалентность value-based и policy-gradient
методов в энтропийно-регуляризованном обучении с подкреплением. В этом же контексте показывается схожесть между q-learning и natural policy gradient. Экспериментально рассматриваются несколько форм
обучения политик, использующие регуляризацию, и эквивалентность подтверждается. С помощью одной из форм представления q-функции оказывается возможным обучение без использования target network и epsilon-greedy выбора действий.

Регистрация на семинар по ссылке:
https://goo.gl/forms/n8ueMHhbv4nsIUm52
Не забудьте зарегистрироваться до вечера сегодняшнего дня, если хотите прийти!

Deep RL reading group meeting

Если у Вас нет ШАДовского пропуска, и если Вы бы хотели посетить семинар, на котором разбираются статьи про RL, то эта форма – для Вас!

Несколько важных моментов:

1. Эту форму нужно будет заполнять КАЖДЫЙ РАЗ перед каждым семинаром, указывая дату предстоящего семинара

2. Отправлять форму нужно НЕ ПОЗЖЕ ВЕЧЕРА ДНЯ ПРЕДШЕСТВУЮЩЕГО СЕМИНАРУ (не позже среды, если семинар в чт). Если вдруг вы в день семинара поняли, что не успели отправить форму – пишите организаторам, что-нибудь придумаем!

3. В день семинара нужно ПРИХОДИТЬ С ПАСПОРТОМ. Без него могут не пустить.

источник

14:06пожаловаться #19

2018 February 08

DP

Dmitry Persiyanov in RL reading group

Решил прочитать еще раз статью Deterministic Policy Gradients и удивился, что в доказательстве DPG теоремы требуется непрерывность функции награды r(s, a) и ее градиента dr/da (http://proceedings.mlr.press/v32/silver14-supp.pdf -- тут док-во теоремы в пункте B, условия A1).

На практике ведь встречаются задачи с непрерывным пространством действий, где функция наград не непрерывна? Типа, например, нужно руку робота в какую-то область загнать и награда бинарная (в области или нет).

Может ли кто-то из людей, у которых есть опыт в continuous action spaces поделиться, норм (D)DPG работает в таких случаях или действительно начинает лажать? Или на практике наоборот пытаются сделать непрерывный и дифференцируемый реворд (типа расстояния до области в вышеприведенном примере)?

источник

00:24пожаловаться #20

1
«
…
‹
59
60
61
62
63
64
65
›
…
»