Size: a a a

RL reading group

2018 January 25

KM

Kirill Mazur in RL reading group
а ну да
источник

KM

Kirill Mazur in RL reading group
я просто сначала ответил
источник

KM

Kirill Mazur in RL reading group
а потом решил прочитать вопрос
источник

AG

Alexander Grishin in RL reading group
типа вырожденые в кривые распределения, тогда ровно оно
источник

АС

Артём С in RL reading group
Равномерные распределения
источник

DP

Dmitry Persiyanov in RL reading group
@gri_alex спасибо, интересно
источник

P

Pavel Shvechikov in RL reading group
Dmitry Persiyanov
А что такое "цена optimal transport'a"? Можно ссылочку?
источник

OK

Oleg Kachan in RL reading group
а по Optimal Transport нигде не предвидится лекций/семинаров?
источник

АС

Артём С in RL reading group
Было бы неплохо прочитать вышеприведённую книгу
источник

OK

Oleg Kachan in RL reading group
Артём С
Было бы неплохо прочитать вышеприведённую книгу
там целая книга? спасибо!
источник
2018 January 27

P

Pavel Shvechikov in RL reading group
[1709.04326] Learning with Opponent-Learning Awareness
https://arxiv.org/abs/1709.04326
источник
2018 January 30

AG

Aleksey Grinchuk in RL reading group
Всем привет! А знаком ли кто-то с задачей RL в случае когда у нас есть ограничения на состояния? Т.е. я максимизирую всё ту же суммарную награду, но хочу запретить некоторые траектории. Например, я еду на машине из пункта А в пункт Б и хочу минимизировать затраты бензина. Однако на определённых участках есть ограничения скорости, которые я нарушать не хочу, плюс я хочу приехать за определённое время (эпизод заканчивается когда я прибываю в пункт назначения, но мне не желательны ситуации, когда я приезжаю раньше или опаздываю). Может ли кто-то посоветовать литературу на этот счёт?
P.S. Очевидное решение задать определённым образом функцию наград, чтобы она карала за такие случаи не работает.
источник

AN

Alexander Novikov in RL reading group
источник

АС

Артём С in RL reading group
Кажется, тебя всё же интересуют ограничения на действия, ведь состояния тебе неподвластны
источник

KB

Kirill Bobyrev in RL reading group
Недавно на реддите обсуждали случай, когда действия зависят от состояния, похоже на этот случай: https://www.reddit.com/r/reinforcementlearning/comments/7tnxk9/r_examples_of_deep_q_learning_where_action_space/
источник

СВ

Сергей Власов... in RL reading group
Народ, в случае deepQlearning  target net выполняет роль меток (как в обучении с учителем)?
источник

AG

Aleksey Grinchuk in RL reading group
В каком-то смысле да, но только движущихся меток, т.к. всякий раз после обновления весов target network наши метки сдвигаются и решается новая задача обучения с учителем, правда, с более адекватного приближения чем если решать с нуля.
источник

СВ

Сергей Власов... in RL reading group
Aleksey Grinchuk
В каком-то смысле да, но только движущихся меток, т.к. всякий раз после обновления весов target network наши метки сдвигаются и решается новая задача обучения с учителем, правда, с более адекватного приближения чем если решать с нуля.
спасибо за ответ, хмм.... то есть на новый state метка даже уже и не правильная(ведь двиущийся предмет сместилс(
источник

AG

Aleksey Grinchuk in RL reading group
Сложно сказать что значит правильная, а что значит нет, мы же метки по сути сами придумываем на основании нашей оценки Q-функции.
источник

СВ

Сергей Власов... in RL reading group
Aleksey Grinchuk
Сложно сказать что значит правильная, а что значит нет, мы же метки по сути сами придумываем на основании нашей оценки Q-функции.
спс
источник