Телеграмм чат группы theoreticalrl страница 66

2018 February 14

📒

📒 in RL reading group

а хотя наверно в одно время просто написаны

источник

21:33пожаловаться #1

AG

Aleksey Grinchuk in RL reading group

https://www.alexirpan.com/2018/02/14/rl-hard.html

Alexirpan

Deep Reinforcement Learning Doesn't Work Yet

June 24, 2018 note: If you want to cite an example from the post, please
cite the paper which that example came from. If you want to cite the
post as a whole, you can use the following BibTeX:

источник

22:44пожаловаться #2

2018 February 15

AG

Aleksey Grinchuk in RL reading group

Efficient Exploration through Bayesian Deep Q-Networks

https://arxiv.org/abs/1802.04412

Хорошая идея. Вместо того, чтобы брать линейную комбинацию фичей в DQN (что по сути и делает последний слой сети, т.к. он линейный) прикрутить Bayesian Linear Regression.

источник

11:35пожаловаться #3

EG

Evgeniy Golikov in RL reading group

Итак, я сегодня попытаюсь поставить задачу мета-обучения, расскажу про один из подходов её решать - MAML, про некоторую его модификацию (скорее, коррекцию) E-MAML, а также упомяну ещё несколько статей на эту тему от тех же авторов. Я надеюсь, что мой доклад не займёт много времени, но всё равно не забудьте заранее запастись кефиром

источник

16:45пожаловаться #4

P

Pavel Shvechikov in RL reading group

Мало ли – кому поможет
https://t.me/joinchat/AAAAAEN_BTgmohUe4UiNQw

Yandex Guests WiFi

Passwords

источник

18:53пожаловаться #5

AP

Anton Pechenko in RL reading group

https://www.youtube.com/watch?v=16UUb4HF0fo

YouTube

RL reading club 15.02.2018

Доклад Евгения Голикова про популярный нынче Meta-learning в статьях "Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks" https://arxiv.org/pd...

источник

19:02пожаловаться #6

AP

Anton Pechenko in RL reading group

Видно слышно?

источник

19:02пожаловаться #7

LG

Leonid Gremyachikh in RL reading group

да, спасибо =)

источник

20:23пожаловаться #8

P

Pavel Shvechikov in RL reading group

Introduction to Learning to Trade with Reinforcement Learning – WildML
http://www.wildml.com/2018/02/introduction-to-learning-to-trade-with-reinforcement-learning/

WildML

Introduction to Learning to Trade with Reinforcement Learning

Thanks a lot to @aerinykim, @suzatweet and @hardmaru for the useful feedback! The academic Deep Learning research community has largely stayed away from the financial markets. Maybe that’s be…

источник

21:17пожаловаться #9

P

Pavel Shvechikov in RL reading group

Evgeniy Golikov

Итак, я сегодня попытаюсь поставить задачу мета-обучения, расскажу про один из подходов её решать - MAML, про некоторую его модификацию (скорее, коррекцию) E-MAML, а также упомяну ещё несколько статей на эту тему от тех же авторов. Я надеюсь, что мой доклад не займёт много времени, но всё равно не забудьте заранее запастись кефиром

Думаю, что у них не совсем корректные эксперименты. Их метод оптимизации – метод второго порядка.
А сравнение с методами первого.

источник

21:20пожаловаться #10

📒

📒 in RL reading group

Pavel Shvechikov

Думаю, что у них не совсем корректные эксперименты. Их метод оптимизации – метод второго порядка.
А сравнение с методами первого.

на омниглоте few shot learning они первого порядка делали же

источник

21:27пожаловаться #11

📒

📒 in RL reading group

* на miniImagenet
а нет там все таки второго по fast weights

источник

21:46пожаловаться #12

2018 February 21

AP

Anton Pechenko in RL reading group

Ребята, подскажите по поводу одного момента, я использую DDPG, действие у меня - это два неприрывных значения от -1 до 1, и часто алгоритм выходит за допустимый диапозон, если вставить например tanh, то он не выходит за диапазон, но при этом сходится к полярным действиям, то есть выдает или -1 или 1, при этом поведение в целом адекватное, то есть например в Carla машина едет как пьяная, но в нужную точку, то есть в этом случае правильными значениями были бы значения около 0, но сетка их почему-то не использует. Не подскажете почему так может быть?

источник

13:16пожаловаться #13

АС

Артём С in RL reading group

Может у сети выкручиваются веса, что приводит к большим по модулю преактивациям?

источник

13:20пожаловаться #14

AP

Anton Pechenko in RL reading group

а как с этим бороться?

источник

13:21пожаловаться #15