Телеграмм чат группы theoreticalrl страница 166

Всем привет!

Есть кто-нибудь кто изучает RL в контексте диалоговых систем?

Я представляю www.kvint.io и мы задумываемся над механизмами автосборки скриптов ( https://t.co/MjWkeuvLTn?amp=1) и диалоговыми агентами.

Сейчас работаем по классике: stt+nlu+dm(rule-based)+tts.

Данные у нас есть, клиенты тоже, задачи сугубо прикладные.

Кому интересно развиваться в этой области, пишите.
Спасибо!

источник

18:23пожаловаться #6

2019 November 05

Sergey Kolesnikov in RL reading group

хай гайз,
тут вроде NeurIPS 2019: Learn to Move - Walk Around закончился,
вроде наша команда там 2е место взяла
по классике – все выкладывать будем, но интересно кому послушать за задачу, за подходы и всю прочую машинерию? RL и не только))

источник

16:37пожаловаться #7

Vladislav Myrov in RL reading group

Конечно

источник

16:38пожаловаться #8

Sergey Sviridov in RL reading group

Да, было бы круто

источник

16:38пожаловаться #9

Adel Iarullin in RL reading group

источник

16:38пожаловаться #10

cydoroga in RL reading group

Всем привет!

Было бы круто обсудить
Можно попробовать занять аудиторию на следующий или этот четверг, если это удобно

источник

16:40пожаловаться #11

Cherry Pie in RL reading group

хай гайз,
Наша команда заняла 3-е место, возможно мы бы тоже могли что-то интересное рассказать 🙂
Не уверен правда, будет ли интересно на фоне рассказа про 2-ое место

источник

16:41пожаловаться #12

Sergey Sviridov in RL reading group

Будет, конечно)

источник

16:41пожаловаться #13

Alexander Grishin in RL reading group

@scitator @CherryPieHSE
я бы с большим удовольствием послушал

источник

16:43пожаловаться #14

Dany Chepenko in RL reading group

Плюсую, если все записать получится - будет очень круто!

источник

17:12пожаловаться #15

cydoroga in RL reading group

Такс такс

По совещанию со спикерами, семинар имеет смысл провести на следующей неделе

Официальный анонс сделаю до пятницы этой недели. С точными местом и временем

Запись конечно очень хочется, да. Надеюсь, получится все заснять

источник

17:16пожаловаться #16

2019 November 06

Nurlan Shagadatov in RL reading group

Гайз помогите

источник

18:00пожаловаться #17

Nurlan Shagadatov in RL reading group

Does deterministic policy lead to large norm of Fisher Information matrix or it leads to singular FIM?

Reasoning 1:

Deterministic policy means that entropy is close to zero. It means that gradient of log policy converges to 0, thus Fisher information matrix is almost singular matrix.

Kakade. Natural Policy gradient. page 5

Reasoning 2:

For deterministic policy we have that small changes in parameter will lead to larger changes in the KL-divergence. Also we know that Fisher matrix measures the curvature of the KL term, then Fisher matrix norm will be large.

DeepMind, Progress & Compress. page 5

Thus, I have two statements that contradict each other. Where do I mistake?

источник

18:00пожаловаться #18

Serge K in RL reading group

Nurlan Shagadatov

Just passing by, but you seem to be asking about the norm and the first statement only concerns invertibility

источник

18:09пожаловаться #19

Alexander Grishin in RL reading group

Рассуждения совершенно мне непонятные, они как-будто подразумевают либо дифференцирование дельта-функций, либо "прирост" KL дивергенций между парами атомов. И то, и другое не звучит как хороший план.

Я бы сказал так. По сути матрица фишера оценивает возможность оценить параметры по значению случайной величины. В случае дельта функции мы всегда можем восстановить точно, т.е. среди ваших вариантов это будет "large norm", хотя по факту - бесконечность.

Если бы она была сингулярная, то, например, по Крамеру-Рао у нас бы не было бы возможности оценить параметры с конечной дисперсией, что неверно.

источник

18:20пожаловаться #20