Size: a a a

RL reading group

2019 September 24

P

Pavel Shvechikov in RL reading group
источник

P

Pavel Shvechikov in RL reading group
Действительно, impressive
источник
2019 September 25

P

Pavel Shvechikov in RL reading group
Коллеги, а знает кто какие интересные способы регуляризации Q сеток?

Distributional Loss
Dueling Architecture
Double Architecture
TD3 like regularization (min over 2 Q funcs)
L2 reg
Batch Norm, Cross Norm
Data Augmentation
Stochastic Policy (SAC-like, expectation over action in the next state)
Biased actions in TD3 target for Q
Drouput  
Сглаживание на уровне лосса ( https://arxiv.org/pdf/1803.02348.pdf )
Регуляризация по времени ( https://papers.nips.cc/paper/7449-temporal-regularization-for-markov-decision-process.pdf )
Lipschitz penalty (https://arxiv.org/pdf/1804.07193.pdf)

Что забыл?
источник

DN

Dmitry Nikulin in RL reading group
Баги (github.com)
источник

AG

Aleksey Grinchuk in RL reading group
источник

P

Pavel Shvechikov in RL reading group
Thanks for the preconditioner!
источник
2019 September 27

P

Pavel Shvechikov in RL reading group
Не перейти ли в чате на английский?
Анонимный опрос
30%
Нет, буду писать на языке Пушкина
44%
Yes, if it expands audience
26%
Я пассажир
Проголосовало: 119
источник

AC

Artur Chakhvadze in RL reading group
О, вы из Англии
источник

A

Alexander O in RL reading group
Я не думаю, что аудитория телеграма имеет большую долю европейцев и из северной америки ребят. Мне кажется, что группа на английском привлечет лишь иранцев.
источник

P

Pavel Shvechikov in RL reading group
Мне постоянно пишут
And isn't it better to use English instead of Russian in group to be Internationale?
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
Alexander O
Я не думаю, что аудитория телеграма имеет большую долю европейцев и из северной америки ребят. Мне кажется, что группа на английском привлечет лишь иранцев.
+
источник

A

Alexander O in RL reading group
Можно сделать отдельную группу RL reading group eng и проверить, будет ли она пользоваться популярностью.
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
Alexander O
Можно сделать отдельную группу RL reading group eng и проверить, будет ли она пользоваться популярностью.
(не будет)
источник

A

Alexander O in RL reading group
Ну чтобы гельштад закрыть можно сделать. Известная мне англоязычная группа в Discord не имеет большой активности.
Я бы связал это с тем, что среди участников есть большой разброс по скиллам и из-за этого общения постоянного нет. Плюс не так много RL в индустрии и соответственно вакансий, чтобы у многих участников была мотивация прокачиваться.
источник

MD

Michael Diskin in RL reading group
Вообще, это чатик для организации семинара в шаде или для обсуждения статей про rl? Если второе, то можно и по английски, но есть ли уверенность что в таком качестве он будет жить?
источник

c

cydoroga in RL reading group
Michael Diskin
Вообще, это чатик для организации семинара в шаде или для обсуждения статей про rl? Если второе, то можно и по английски, но есть ли уверенность что в таком качестве он будет жить?
Этот чатик как для первого, так и для второго, как я это вижу.

Есть чат RL papers, где только ссылки на статьи, и он англоязычен.
источник

NA

Narek Alvandyan in RL reading group
А можно ссылочку пожалуйста ?
источник

c

cydoroga in RL reading group
Narek Alvandyan
А можно ссылочку пожалуйста ?
источник

NA

Narek Alvandyan in RL reading group
Спасибо
источник
2019 September 28

AG

Aleksey Grinchuk in RL reading group
Pavel Shvechikov
Коллеги, а знает кто какие интересные способы регуляризации Q сеток?

Distributional Loss
Dueling Architecture
Double Architecture
TD3 like regularization (min over 2 Q funcs)
L2 reg
Batch Norm, Cross Norm
Data Augmentation
Stochastic Policy (SAC-like, expectation over action in the next state)
Biased actions in TD3 target for Q
Drouput  
Сглаживание на уровне лосса ( https://arxiv.org/pdf/1803.02348.pdf )
Регуляризация по времени ( https://papers.nips.cc/paper/7449-temporal-regularization-for-markov-decision-process.pdf )
Lipschitz penalty (https://arxiv.org/pdf/1804.07193.pdf)

Что забыл?
https://openreview.net/pdf?id=B1lqDertwr

Набрёл вот ещё на статью. С целым параграфом в related work посвящённым регуляризации в RL.
источник