Size: a a a

RL reading group

2019 November 06

AG

Alexander Grishin in RL reading group
> Если бы она была сингулярная, то, например, по Крамеру-Рао у нас бы не было бы возможности оценить параметры с конечной дисперсией, что неверно.

мы тут обсудили с Артём и решили, что это тоже нехорошее рассуждение, тк Крамера-Рао нельзя применять в данном случае
источник

LG

Leonid Gremyachikh in RL reading group
@scitator , @CherryPieHSE круто! поздравляю!
источник

AG

Alexander Grishin in RL reading group
> For deterministic policy we have that small changes in parameter will lead to larger changes in the KL-divergence.
Эта цитата дает некорректное утверждение и текущая версия статьи имеет другое:
> One problem that we can address is that it favours policies that are more deterministic, as in expectation, small changes to θ for such policies will cause larger changes in the KL and the Fisher matrix measures the curvature of the KL term
источник

AG

Alexander Grishin in RL reading group
и первой цитаты я в соответствующей статье тоже не нашел
источник

AG

Alexander Grishin in RL reading group
зато есть такое, что имеет совсем иной смысл
источник

AG

Alexander Grishin in RL reading group
Alexander Grishin
зато есть такое, что имеет совсем иной смысл
In all of our simulations, the policies tend to become deterministic (\nabla log \pi -> 0) and to prevent
F from becoming singular, we add about 1e- 3 * I at every step in all our simulations
источник

V

Valeriy in RL reading group
Nurlan Shagadatov
Does deterministic policy lead to large norm of Fisher Information matrix or it leads to singular FIM?

Reasoning 1:

Deterministic policy means that entropy is close to zero. It means that gradient of log policy converges to 0, thus Fisher information matrix is almost singular matrix.

Kakade. Natural Policy gradient. page 5

Reasoning 2:

For deterministic policy we have that small changes in parameter will lead to larger changes in the KL-divergence. Also we know that Fisher matrix measures the curvature of the KL term, then Fisher matrix norm will be large.

DeepMind, Progress & Compress. page 5

Thus, I have two statements that contradict each other. Where do I mistake?
Нет противоречия. Здесь Сингулярная матрица = столбцы линейно зависимы. А норма матрицы подразумевается = L2 норма элементов (НЕ ОПРЕДЕЛИТЕЛЬ).
источник

NS

Nurlan Shagadatov in RL reading group
Alexander Grishin
In all of our simulations, the policies tend to become deterministic (\nabla log \pi -> 0) and to prevent
F from becoming singular, we add about 1e- 3 * I at every step in all our simulations
Это высказывание я понимаю так: политика во время обучения стремится быть более детерминированной (имеется ввиду, что для каждого состояния выдавать более детерминированное распределение на действия), отсюда следует что градиент лог политики стремится к нулю, следовательно матрица Фишера стремится быть сингулярной, те необратимой. Можете пояснить эти две импликации? И если градиент логарифма стремится к нулю, не следует ли из этого что элемент матрицы Фишера который оценивается произведением частных производных тоже стремится к нулю?
источник
2019 November 07

AG

Alexander Grishin in RL reading group
Коллеги, встречали ли вы работы исследующие/использующие нормализацию признаков в RL?
Мне удалось найти только CrossNorm, нормализацию на скользящие статистики в HER, использование BatchNorm в оригинальном DDPG и в статье "Regularization Matters in Policy Optimization".
источник

CP

Cherry Pie in RL reading group
в статье про parameter noise for exploration используют Layer Norm чтобы, грубо говоря, не мучаться с подбором дисперсии шума под каждый слой
источник
2019 November 09

AG

Alexander Grishin in RL reading group
Cherry Pie
в статье про parameter noise for exploration используют Layer Norm чтобы, грубо говоря, не мучаться с подбором дисперсии шума под каждый слой
огонь, спасибо!
источник

c

cydoroga in RL reading group
Всем привет!

Со следующей недели, наконец, мы возобновляем проведение семинаров группы.
Семинар обещает быть интересным!

Как вы знаете, недавно завершилось соревнование Learn to Move от NeurIPS
У нас есть уникальная возможность послушать выступление двух команд, занявших в соревновании 2е и 3е места соответственно:

- Сергей Колесников
- Акимов Дмитрий (Cherry Pie)

Ребята расскажут о самом соревновании и о своих решениях

Кроме того, на семинаре выступят Сергей Свиридов и Артем Сорокин с рассказом про их участие в соревновании Animal Olympics, где они заняли 9е место.

Для одного семинара докладов довольно много поэтому длительность семинара будет около 2х - 2.5й часов с перерывом между докладами.

ВНИМАНИЕ!
Семинар пройдет в СРЕДУ (13е ноября) !
Начало в 18:00
ШАД
Аудитория уточняется
Если вы не знаете, как добраться, адрес -  ул. Тимура Фрунзе, 11 корпус 2

ВНИМАНИЕ [2]!!!
Если у вас нет пропуска в ШАД, обязательно регистрируйтесь по ссылке:
https://docs.google.com/forms/d/e/1FAIpQLSd18PGkZuOqkWThJhmNxnmiSVFicnH4YwLVTCOkEkVQV6ZIDg/viewform
источник

VM

Vladislav Myrov in RL reading group
А будет стрим или хотя бы запись?
источник

c

cydoroga in RL reading group
Да, обязательно будет запись
источник

VM

Vladislav Myrov in RL reading group
Спасибо!
источник

EB

Evgeny Burnaev in RL reading group
источник
2019 November 10

SK

Sergey Kolesnikov in RL reading group
про ситуацию с RL community:
данный «захват» и присвоение семинара RL Reading Club не имеет никакого отношения к RL Reading Club, ШАДу, организаторам и докладчикам

RL Reading Club был, есть и будет самобытен и действительно rl’ным

такое поведение админа этого канала считаю недостойным (когда я пытался это остановить - меня лишили админ-прав)

прошу простить за неудобства и такую муть, смешно даже

ps. здесь это сообщение уже так просто не удалить
источник

SA

See All in RL reading group
Sergey Kolesnikov
про ситуацию с RL community:
данный «захват» и присвоение семинара RL Reading Club не имеет никакого отношения к RL Reading Club, ШАДу, организаторам и докладчикам

RL Reading Club был, есть и будет самобытен и действительно rl’ным

такое поведение админа этого канала считаю недостойным (когда я пытался это остановить - меня лишили админ-прав)

прошу простить за неудобства и такую муть, смешно даже

ps. здесь это сообщение уже так просто не удалить
а шо происходет
источник

AC

Artur Chakhvadze in RL reading group
источник

SK

Sergey Kolesnikov in RL reading group
See All
а шо происходет
админ другого рл чата решил присвоить себе семинар
источник