Size: a a a

RL reading group

2019 November 03

LG

Leonid Gremyachikh in RL reading group
О, не видел такую, спасибо
Может быть ещё есть что-то подобное?
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
Думаю большинство сложных сред неинтегрируемые
источник

PK

Petr Kuderov in RL reading group
хм, не поверил, что в вопросе хаос в смысле теории хаоса был применен. Круто, не думал, что такие среды тоже есть!
источник

LG

Leonid Gremyachikh in RL reading group
интересно тут reward считается. я делал среду с аттрактором Лоренца и за reward брал квадрат ошибки, а тут хитрее
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
Leonid Gremyachikh
интересно тут reward считается. я делал среду с аттрактором Лоренца и за reward брал квадрат ошибки, а тут хитрее
Ну тут тоже взвешенный квадрат ошибки
источник

AN

Arseny Nazarkin in RL reading group
Всем привет!

Есть кто-нибудь кто изучает RL в контексте диалоговых систем?

Я представляю www.kvint.io и мы задумываемся над механизмами автосборки скриптов ( https://t.co/MjWkeuvLTn?amp=1) и диалоговыми агентами.

Сейчас работаем по классике: stt+nlu+dm(rule-based)+tts.

Данные у нас есть, клиенты тоже, задачи сугубо прикладные.

Кому интересно развиваться в этой области, пишите.
Спасибо!
источник
2019 November 05

SK

Sergey Kolesnikov in RL reading group
хай гайз,
тут вроде NeurIPS 2019: Learn to Move - Walk Around закончился,
вроде наша команда там 2е место взяла
по классике – все выкладывать будем, но интересно кому послушать за задачу, за подходы и всю прочую машинерию? RL и не только))
источник

VM

Vladislav Myrov in RL reading group
Конечно
источник

SS

Sergey Sviridov in RL reading group
Да, было бы круто
источник

AI

Adel Iarullin in RL reading group
+
источник

c

cydoroga in RL reading group
Всем привет!

Было бы круто обсудить
Можно попробовать занять аудиторию на следующий или этот четверг, если это удобно
источник

CP

Cherry Pie in RL reading group
хай гайз,
Наша команда заняла 3-е место, возможно мы бы тоже могли что-то интересное рассказать 🙂
Не уверен правда, будет ли интересно на фоне рассказа про 2-ое место
источник

SS

Sergey Sviridov in RL reading group
Будет, конечно)
источник

AG

Alexander Grishin in RL reading group
@scitator @CherryPieHSE
я бы с большим удовольствием послушал
источник

DC

Dany Chepenko in RL reading group
Плюсую, если все записать получится - будет очень круто!
источник

c

cydoroga in RL reading group
Такс такс

По совещанию со спикерами, семинар имеет смысл провести на следующей неделе

Официальный анонс сделаю до пятницы этой недели. С точными местом и временем

Запись конечно очень хочется, да. Надеюсь, получится все заснять
источник
2019 November 06

NS

Nurlan Shagadatov in RL reading group
Гайз помогите
источник

NS

Nurlan Shagadatov in RL reading group
Does deterministic policy lead to large norm of Fisher Information matrix or it leads to singular FIM?

Reasoning 1:

Deterministic policy means that entropy is close to zero. It means that gradient of log policy converges to 0, thus Fisher information matrix is almost singular matrix.

Kakade. Natural Policy gradient. page 5

Reasoning 2:

For deterministic policy we have that small changes in parameter will lead to larger changes in the KL-divergence. Also we know that Fisher matrix measures the curvature of the KL term, then Fisher matrix norm will be large.

DeepMind, Progress & Compress. page 5

Thus, I have two statements that contradict each other. Where do I mistake?
источник

SK

Serge K in RL reading group
Nurlan Shagadatov
Does deterministic policy lead to large norm of Fisher Information matrix or it leads to singular FIM?

Reasoning 1:

Deterministic policy means that entropy is close to zero. It means that gradient of log policy converges to 0, thus Fisher information matrix is almost singular matrix.

Kakade. Natural Policy gradient. page 5

Reasoning 2:

For deterministic policy we have that small changes in parameter will lead to larger changes in the KL-divergence. Also we know that Fisher matrix measures the curvature of the KL term, then Fisher matrix norm will be large.

DeepMind, Progress & Compress. page 5

Thus, I have two statements that contradict each other. Where do I mistake?
Just passing by, but you seem to be asking about the norm and the first statement only concerns invertibility
источник

AG

Alexander Grishin in RL reading group
Рассуждения совершенно мне непонятные, они как-будто подразумевают либо дифференцирование дельта-функций, либо "прирост" KL дивергенций между парами атомов. И то, и другое не звучит как хороший план.

Я бы сказал так. По сути матрица фишера оценивает возможность оценить параметры по значению случайной величины. В случае дельта функции мы всегда можем восстановить точно, т.е. среди ваших вариантов это будет "large norm", хотя по факту - бесконечность.

Если бы она была сингулярная, то, например, по Крамеру-Рао у нас бы не было бы возможности оценить параметры с конечной дисперсией, что неверно.
источник