Телеграмм чат группы theoreticalrl страница 65

Size: a a a

RL reading group

2018 February 08

Обычно градиент по theta, которая задаёт вероятность действия, поэтому даже если награда дискретная, вероятности все сглаживпют

источник

00:33пожаловаться #1

Arseny in RL reading group

Статью не открывал, может там другая ситуация

источник

00:33пожаловаться #2

Dmitry Persiyanov in RL reading group

В классической policy gradient theorem (для стох политик) вроде не требуется дифференцируемость реворда вообще, насколько я знаю. И да, там хватает градиента по theta

источник

00:44пожаловаться #3

Evgenii Nikishin in RL reading group

В Стэнфорде

источник

18:50пожаловаться #4

Pavel Shvechikov in RL reading group

Коллеги, мы в Стенфорде сегодня и отныне. Пожалуйста, welcome

источник

18:57пожаловаться #5

Anton Pechenko in RL reading group

http://youtu.be/KMf6AANMMx0

YouTube

RL reading club 8.02.2018

источник

18:58пожаловаться #6

Anton Pechenko in RL reading group

трансляция

источник

18:58пожаловаться #7

Aliaksandr Nekrashev... in RL reading group

А можно презентацию в чат? Оно то вроде и неплохо видно, но pdf чётче будет.

источник

19:04пожаловаться #8

Aliaksandr Nekrashev... in RL reading group

Почему-то в трансляции не видно видео.

источник

19:06пожаловаться #9

Anton Pechenko in RL reading group

сек, тут дисконнект

источник

19:06пожаловаться #10

Aliaksandr Nekrashev... in RL reading group

Уже поправилось

источник

19:06пожаловаться #11

Anton Pechenko in RL reading group

сейчас возобновится

источник

19:06пожаловаться #12

Pavel Shvechikov in RL reading group

Dmitry Persiyanov

Решил прочитать еще раз статью Deterministic Policy Gradients и удивился, что в доказательстве DPG теоремы требуется непрерывность функции награды r(s, a) и ее градиента dr/da (http://proceedings.mlr.press/v32/silver14-supp.pdf -- тут док-во теоремы в пункте B, условия A1).

На практике ведь встречаются задачи с непрерывным пространством действий, где функция наград не непрерывна? Типа, например, нужно руку робота в какую-то область загнать и награда бинарная (в области или нет).

Может ли кто-то из людей, у которых есть опыт в continuous action spaces поделиться, норм (D)DPG работает в таких случаях или действительно начинает лажать? Или на практике наоборот пытаются сделать непрерывный и дифференцируемый реворд (типа расстояния до области в вышеприведенном примере)?

Если у тебя есть непрерывный и дифференцируемый reward, ты на коне. К этому надо стремится всеми силами, потому что оптимизационная задача гораздо проще.
Большинство сложностей в RL из-за того, что награда дискретна.

источник

21:47пожаловаться #13

АС

Артём С in RL reading group

Всё-таки чтобы совсем быть на коне, нужна ещё дифференцируемая модель среды

источник

21:48пожаловаться #14

Pavel Shvechikov in RL reading group

Артём С

Всё-таки чтобы совсем быть на коне, нужна ещё дифференцируемая модель среды

Да. Если она есть, то задача сводится к оптимизации дифференцируемого функционала без необходимости взаимодействия со средой.

Если модель среды и наград известна, но недифференциируема, то задача сводится к планированию и методы ее решения, строго говоря, сильно отличаются.

Однако, можно быть на коне и в случае, когда известна дифференциируемая оценка глобальной полезности действия (Q-function). В этом случае модель среды не нужна. И это случай DPG.

источник

21:57пожаловаться #15

Pavel Shvechikov in RL reading group

Arseny

Вероятности действий не имеют общего с гладкостью наград по действиям. Оптимизация происходит по параметрам вероятностного распределения. Но оптимизируется все таки награда.
И если у тебя dr / da это ноль почти всюду, то da / d\theta не имеет значения.

источник

22:01пожаловаться #16

2018 February 14

Anton Pechenko in RL reading group

Ребята, а есть какие-то советы о ситуациях когда например из двух актуаторов один сильно инертный? То есть агент должен долго давить на него, чтобы что-то начало происходить, например управление рулем и педалью газа, машина не нужно время на переключение передачи и прочее из-за этого возникает задержка

источник

15:23пожаловаться #17

АК

Андрей Квасов... in RL reading group

Всем привет!
Завтра, в ШАДе, Стенфорд
В 19:00
Мы послушаем доклад Евгения Голикова про популярный нынче Meta-learning в статьях
"Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks" https://arxiv.org/pdf/1703.03400.pdf
"Some Considerations on Learning to Explore via Meta-Reinforcement Learning" https://openreview.net/pdf?id=Skk3Jm96W

источник

16:23пожаловаться #18

АК

Андрей Квасов... in RL reading group

Регистрация на семинар по ссылке:
https://goo.gl/forms/n8ueMHhbv4nsIUm52
Не забудьте зарегистрироваться до вечера сегодняшнего дня, если хотите прийти!

Google Docs

Deep RL reading group meeting

Если у Вас нет ШАДовского пропуска, и если Вы бы хотели посетить семинар, на котором разбираются статьи про RL, то эта форма – для Вас!

Несколько важных моментов:

1. Эту форму нужно будет заполнять КАЖДЫЙ РАЗ перед каждым семинаром, указывая дату предстоящего семинара

2. Отправлять форму нужно НЕ ПОЗЖЕ ВЕЧЕРА ДНЯ ПРЕДШЕСТВУЮЩЕГО СЕМИНАРУ (не позже среды, если семинар в чт). Если вдруг вы в день семинара поняли, что не успели отправить форму – пишите организаторам, что-нибудь придумаем!

3. В день семинара нужно ПРИХОДИТЬ С ПАСПОРТОМ. Без него могут не пустить.

источник

16:23пожаловаться #19

📒

📒 in RL reading group

хмм почему в "Some Considerations on Learning to Explore via Meta-Reinforcement Learning" они в E-RL^2 вместо RNN не использовали SNAIL/Transformer

источник

20:51пожаловаться #20