Size: a a a

RL reading group

2018 April 06

LY

Liubov Yaronskaya in RL reading group
Да, зайди на канал
источник

AP

Anton Pechenko in RL reading group
Ага, все правильно, на канале
https://www.youtube.com/channel/UC6KYPBaACVG0pkBWH5bkWLQ
есть все видео, которые я записывал
источник

KI

Karim Iskakov in RL reading group
Спасибо
источник

SK

Sergey Kolesnikov in RL reading group
давайте поддержим товарищей, так-то не каждый день и статья годная и код выкладывают
Всем привет!

Мы (Nikolay Savinov, Alexey Dosovitskiy, Vladlen Koltun) написали статью "Semi-parametric Topological Memory for Navigation", ее приняли на ICLR'18. Если вы интересуетесь Robotics & Control - вам эта работа может быть полезна.

В нашей статье мы разработали новую модель памяти и рассмотрели приложение такой памяти в навигации. Тестировали память в таких условиях: агента помещают в новый лабиринт (не виденный ранее), дают ему 5-минутное видео обхода лабиринта, и просят найти цель по картинке. Ему требуется запомнить лабиринт из этого видео и использовать память, чтобы быстро найти цель.

Наш модуль памяти состоит из графа и 2 нейросетей, которые обучаются за счет self-supervision (без RL!). Результаты в 3 раза лучше, чем обычный RL с LSTM-памятью. Работает примерное так: граф содержит все воспоминания из видео, ребро означает возможность дойти от одного воспоминания до другого за несколько шагов, агент находит себя на графе с помощью одной нейросети, планирует путь на графе с помощью Dijkstra algorithm и использует другую нейросеть, чтобы двигаться по графу. Детали обучения нейросетей (и много экспериментов) - смотрите в статье!

Демо-видео: https://youtu.be/vRF7f4lhswo
Код: https://github.com/nsavinov/SPTM
Статья: https://arxiv.org/abs/1803.00653
Веб-сайт: https://sites.google.com/view/sptm/

share/like/repost @ twitter: https://twitter.com/SavinovNikolay/status/973933627250741248
источник
2018 April 07

KI

Karim Iskakov in RL reading group
👍👍
источник

АК

Андрей Квасов... in RL reading group
Прекрасная тема и статья интересная
источник

АК

Андрей Квасов... in RL reading group
А каким-образом модно поддержать статью попавшую на iclr?) попасть в группу поддержки?
источник

SK

Sergey Kolesnikov in RL reading group
только Twitter - только хардкор (bair там вообще адски пиарится)
источник

TG

Tatiana Gaintseva in RL reading group
Вооу
источник

P

Pavel Shvechikov in RL reading group
@Parilo @Scitator, нет желания с авторитетной точки зрения сделать обзор https://arxiv.org/pdf/1804.00361.pdf?
источник

AP

Anton Pechenko in RL reading group
боюсь что это превратится в обзор хаков для DDPG
источник

P

Pavel Shvechikov in RL reading group
Если это будет с высоты вашего опыта, думаю это будет очень любопытно.
источник

AP

Anton Pechenko in RL reading group
в таком случае я не против, я думаю, что было бы круто сделать это вместе с @Scitator и @fgvbrt
источник
2018 April 08

SK

Sergey Kolesnikov in RL reading group
хах, это можно, рассказать всегда готов (у меня с этим предзащита 26го :) )
источник

P

Pavel Shvechikov in RL reading group
Anton Pechenko
в таком случае я не против, я думаю, что было бы круто сделать это вместе с @Scitator и @fgvbrt
Это было бы замечательно
источник
2018 April 09

P

Pavel Shvechikov in RL reading group
источник
2018 April 11

EN

Evgenii Nikishin in RL reading group
докладчики, выкладывайте плз ссылки на презентации сюда
https://docs.google.com/spreadsheets/d/1ZeL1_mfR1ccwKKO_ihKs6R26pqy5bsJgU_t3jJjSN5c
источник

P

Pavel Shvechikov in RL reading group
Еще немного боли от тренировки RL
http://amid.fish/reproducing-deep-rl
источник

AG

Artem Grachev in RL reading group
Я бы убрал "не"
источник

c

cydoroga in RL reading group
Всем привет!

В этот четверг, то есть уже завтра, на семинаре выступит Лиза Вахрамеева.

Как обычно, в ШАДе, Стенфорд, 19:00.

Если у вас нет пропуска, не забудьте зарегистрироваться по ссылке до сегодняшней ночи:
https://docs.google.com/forms/d/e/1FAIpQLSd18PGkZuOqkWThJhmNxnmiSVFicnH4YwLVTCOkEkVQV6ZIDg/viewform

Доклад будет посвящён статье DORA: The Explorer.
https://openreview.net/pdf?id=ry1arUgCW

Авторы вводят аппроксимацию счетчиков посещенных пар действий-состояний, которая позволяет учитывать неопределенность последующей за этой парой траектории.
Таким образом авторы довольно красиво решают задачу, которая уже неоднократно была озвучена в работах по RL: необходимость учёта в процессе exploration последствий действий агента в будущем, а не только мгновенного эффекта.

Приходите, будет интересно!
источник