Size: a a a

RL reading group

2018 February 08

A

Arseny in RL reading group
Обычно градиент по theta, которая задаёт вероятность действия, поэтому даже если награда дискретная, вероятности все сглаживпют
источник

A

Arseny in RL reading group
Статью не открывал, может там другая ситуация
источник

DP

Dmitry Persiyanov in RL reading group
В классической policy gradient theorem (для стох политик) вроде не требуется дифференцируемость реворда вообще, насколько я знаю. И да, там хватает градиента по theta
источник

EN

Evgenii Nikishin in RL reading group
В Стэнфорде
источник

P

Pavel Shvechikov in RL reading group
Коллеги, мы в Стенфорде сегодня и отныне. Пожалуйста, welcome
источник

AP

Anton Pechenko in RL reading group
источник

AP

Anton Pechenko in RL reading group
трансляция
источник

AN

Aliaksandr Nekrashev... in RL reading group
А можно презентацию в чат? Оно то вроде и неплохо видно, но pdf чётче будет.
источник

AN

Aliaksandr Nekrashev... in RL reading group
Почему-то в трансляции не видно видео.
источник

AP

Anton Pechenko in RL reading group
сек, тут дисконнект
источник

AN

Aliaksandr Nekrashev... in RL reading group
Уже поправилось
источник

AP

Anton Pechenko in RL reading group
сейчас возобновится
источник

P

Pavel Shvechikov in RL reading group
Dmitry Persiyanov
Решил прочитать еще раз статью Deterministic Policy Gradients и удивился, что в доказательстве DPG теоремы требуется непрерывность функции награды r(s, a) и ее градиента dr/da (http://proceedings.mlr.press/v32/silver14-supp.pdf -- тут док-во теоремы в пункте B, условия A1).

На практике ведь встречаются задачи с непрерывным пространством действий, где функция наград не непрерывна? Типа, например, нужно руку робота в какую-то область загнать и награда бинарная (в области или нет).

Может ли кто-то из людей, у которых есть опыт в continuous action spaces поделиться, норм (D)DPG работает в таких случаях или действительно начинает лажать? Или на практике наоборот пытаются сделать непрерывный и дифференцируемый реворд (типа расстояния до области в вышеприведенном примере)?
Если у тебя есть непрерывный и дифференцируемый reward, ты на коне. К этому надо стремится всеми силами, потому что оптимизационная задача гораздо проще.
Большинство сложностей в RL из-за того, что награда дискретна.
источник

АС

Артём С in RL reading group
Всё-таки чтобы совсем быть на коне, нужна ещё дифференцируемая модель среды
источник

P

Pavel Shvechikov in RL reading group
Артём С
Всё-таки чтобы совсем быть на коне, нужна ещё дифференцируемая модель среды
Да. Если она есть, то задача сводится к оптимизации дифференцируемого функционала без необходимости взаимодействия со средой.

Если модель среды и наград известна, но недифференциируема, то задача сводится к планированию и методы ее решения, строго говоря, сильно отличаются.

Однако, можно быть на коне и в случае, когда известна дифференциируемая оценка глобальной полезности действия (Q-function). В этом случае модель среды не нужна. И это случай DPG.
источник

P

Pavel Shvechikov in RL reading group
Arseny
Обычно градиент по theta, которая задаёт вероятность действия, поэтому даже если награда дискретная, вероятности все сглаживпют
Вероятности действий не имеют общего с гладкостью наград по действиям. Оптимизация происходит по параметрам вероятностного распределения. Но оптимизируется все таки награда.
И если у тебя dr / da это ноль почти всюду, то da / d\theta не имеет значения.
источник
2018 February 14

AP

Anton Pechenko in RL reading group
Ребята, а есть какие-то советы о ситуациях когда например из двух актуаторов один сильно инертный? То есть агент должен долго давить на него, чтобы что-то начало происходить, например управление рулем и педалью газа, машина не нужно время на переключение передачи и прочее из-за этого возникает задержка
источник

АК

Андрей Квасов... in RL reading group
Всем привет!
Завтра, в ШАДе, Стенфорд
В 19:00
Мы послушаем доклад Евгения Голикова про популярный нынче Meta-learning в статьях
"Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks" https://arxiv.org/pdf/1703.03400.pdf
"Some Considerations on Learning to Explore via Meta-Reinforcement Learning"  https://openreview.net/pdf?id=Skk3Jm96W
источник

АК

Андрей Квасов... in RL reading group
Регистрация на семинар по ссылке:
https://goo.gl/forms/n8ueMHhbv4nsIUm52
Не забудьте зарегистрироваться до вечера сегодняшнего дня, если хотите прийти!
источник

📒

📒 in RL reading group
хмм почему в "Some Considerations on Learning to Explore via Meta-Reinforcement Learning" они в E-RL^2 вместо RNN не использовали SNAIL/Transformer
источник