Size: a a a

RL reading group

2018 February 14

📒

📒 in RL reading group
а хотя наверно в одно время просто написаны
источник

AG

Aleksey Grinchuk in RL reading group
источник
2018 February 15

AG

Aleksey Grinchuk in RL reading group
Efficient Exploration through Bayesian Deep Q-Networks

https://arxiv.org/abs/1802.04412

Хорошая идея. Вместо того, чтобы брать линейную комбинацию фичей в DQN (что по сути и делает последний слой сети, т.к. он линейный) прикрутить Bayesian Linear Regression.
источник

EG

Evgeniy Golikov in RL reading group
Итак, я сегодня попытаюсь поставить задачу мета-обучения, расскажу про один из подходов её решать -  MAML, про некоторую его модификацию (скорее, коррекцию) E-MAML, а также упомяну ещё несколько статей на эту тему от тех же авторов. Я надеюсь, что мой доклад не займёт много времени, но всё равно не забудьте заранее запастись кефиром
источник

P

Pavel Shvechikov in RL reading group
Мало ли – кому поможет
https://t.me/joinchat/AAAAAEN_BTgmohUe4UiNQw
источник

AP

Anton Pechenko in RL reading group
источник

AP

Anton Pechenko in RL reading group
Видно слышно?
источник

LG

Leonid Gremyachikh in RL reading group
да, спасибо =)
источник

P

Pavel Shvechikov in RL reading group
Introduction to Learning to Trade with Reinforcement Learning – WildML
http://www.wildml.com/2018/02/introduction-to-learning-to-trade-with-reinforcement-learning/
источник

P

Pavel Shvechikov in RL reading group
Evgeniy Golikov
Итак, я сегодня попытаюсь поставить задачу мета-обучения, расскажу про один из подходов её решать -  MAML, про некоторую его модификацию (скорее, коррекцию) E-MAML, а также упомяну ещё несколько статей на эту тему от тех же авторов. Я надеюсь, что мой доклад не займёт много времени, но всё равно не забудьте заранее запастись кефиром
Думаю, что у них не совсем корректные эксперименты. Их метод  оптимизации – метод второго порядка.
А сравнение с методами первого.
источник

📒

📒 in RL reading group
Pavel Shvechikov
Думаю, что у них не совсем корректные эксперименты. Их метод  оптимизации – метод второго порядка.
А сравнение с методами первого.
на омниглоте few shot learning они первого порядка делали же
источник

📒

📒 in RL reading group
* на miniImagenet
а нет там все таки второго по fast weights
источник
2018 February 21

AP

Anton Pechenko in RL reading group
Ребята, подскажите по поводу одного момента, я использую DDPG, действие у меня - это два неприрывных значения от -1 до 1, и часто алгоритм выходит за допустимый диапозон, если вставить например tanh, то он не выходит за диапазон, но при этом сходится к полярным действиям, то есть выдает или -1 или 1, при этом поведение в целом адекватное, то есть например в Carla машина едет как пьяная, но в нужную точку, то есть в этом случае правильными значениями были бы значения около 0, но сетка их почему-то не использует. Не подскажете почему так может быть?
источник

АС

Артём С in RL reading group
Может у сети выкручиваются веса, что приводит к большим по модулю преактивациям?
источник

AP

Anton Pechenko in RL reading group
а как с этим бороться?
источник

AP

Anton Pechenko in RL reading group
веса я не смотрел
источник

DP

Dmitry Persiyanov in RL reading group
регуляризовать)
источник

АС

Артём С in RL reading group
L2 регуляризацией
источник

AP

Anton Pechenko in RL reading group
в лосс для критика вставить L2?
источник

АС

Артём С in RL reading group
Скорее для полиси сети, думаю
источник