Size: a a a

RL reading group

2018 May 09

S

Shmuma in RL reading group
@Parilo Кстати, ты уже утянул запись 2018-05-03? Можно файл покоцать?
источник

MG

Maria Garkavenko in RL reading group
Shmuma
Да, запишем
Спасибо!
источник

AP

Anton Pechenko in RL reading group
@Shmuma, да, спасибо
источник
2018 May 10

c

cydoroga in RL reading group
Коллеги, прошу прощения, но я вынужден отметить семинар сегодня, тк не могу приехать по личным причинам.
Можно перенести его на через неделю.
На следующей неделе выступят ребята с докладом по лернинг ту ран.
Еще раз прошу прощения
источник

AP

Anton Pechenko in RL reading group
Без тебя нам его не провести?
источник

TG

Tatiana Gaintseva in RL reading group
Он выступающий)
источник

TG

Tatiana Gaintseva in RL reading group
Был
источник

AP

Anton Pechenko in RL reading group
Ясно) Вопрос снят
источник

SK

Sergey Kolesnikov in RL reading group
что ж, раз семинара нет, держите еще мини-обзорчик - https://github.com/Scitator/papers/blob/master/papers/1703_maml.md

про горячий meta-learning
буду рад вопросам/предложениям/неучтенным фактам 🙂
источник

EN

Evgenii Nikishin in RL reading group
а кто-нибудь может дать накидать догадок, почему в RL часто возникают ситуации, когда агент забывает хорошую политику (как на графике)
источник

EN

Evgenii Nikishin in RL reading group
Переслано от Evgenii Nikishin
источник

SK

Sergey Kolesnikov in RL reading group
потому что input data не i.i.d
источник

EN

Evgenii Nikishin in RL reading group
слишком общий ответ
источник

SK

Sergey Kolesnikov in RL reading group
типо агент обучился, что за камнем - его не убивают и начинает тупо прятаться за камнем.....иииии забывает, что есть и другие состояния
источник

SK

Sergey Kolesnikov in RL reading group
и вжух, политика агента несовместима с реальностью и он начинает плохо играть
источник

JH

Just Heuristic in RL reading group
Переслано от Just Heuristic
ты ищешь нелинейную функцию с кучей параметров(deep learning), начинаешь со случайного приближения параметров(init), при этом используешь шумную(sgd) и смещённую(td loss) оценку целевой функции которую ты оцениваешь в матожидании по распределению, которое в свою очередь зависит от твоей нелинейной функции (см.выше).
источник

JH

Just Heuristic in RL reading group
Переслано от Just Heuristic
What could possibly go wrong?
источник

EN

Evgenii Nikishin in RL reading group
Переслано от Evgenii Nikishin
это, скорее, объясняет в целом оч шумные графики при обучениии рл агентов
источник

EN

Evgenii Nikishin in RL reading group
Переслано от Evgenii Nikishin
но не этот феномен забывания
источник

EN

Evgenii Nikishin in RL reading group
шумные == долго добирается до решения
источник