Телеграмм чат группы theoreticalrl страница 79

Всем привет!

Мы (Nikolay Savinov, Alexey Dosovitskiy, Vladlen Koltun) написали статью "Semi-parametric Topological Memory for Navigation", ее приняли на ICLR'18. Если вы интересуетесь Robotics & Control - вам эта работа может быть полезна.

В нашей статье мы разработали новую модель памяти и рассмотрели приложение такой памяти в навигации. Тестировали память в таких условиях: агента помещают в новый лабиринт (не виденный ранее), дают ему 5-минутное видео обхода лабиринта, и просят найти цель по картинке. Ему требуется запомнить лабиринт из этого видео и использовать память, чтобы быстро найти цель.

Наш модуль памяти состоит из графа и 2 нейросетей, которые обучаются за счет self-supervision (без RL!). Результаты в 3 раза лучше, чем обычный RL с LSTM-памятью. Работает примерное так: граф содержит все воспоминания из видео, ребро означает возможность дойти от одного воспоминания до другого за несколько шагов, агент находит себя на графе с помощью одной нейросети, планирует путь на графе с помощью Dijkstra algorithm и использует другую нейросеть, чтобы двигаться по графу. Детали обучения нейросетей (и много экспериментов) - смотрите в статье!

Демо-видео: https://youtu.be/vRF7f4lhswo
Код: https://github.com/nsavinov/SPTM
Статья: https://arxiv.org/abs/1803.00653
Веб-сайт: https://sites.google.com/view/sptm/

share/like/repost @ twitter: https://twitter.com/SavinovNikolay/status/973933627250741248

Twitter

Nikolay Savinov

#ICLR18: Semi-parametric Topological Memory #SPTM shows some cool results on memorising new mazes just from a 5-minute walkthrough video and navigating in them without any additional maze-specific training: https://t.co/PXjCY4dCSL. #memory #AI #DeepLearning #Robotics

источник

23:47пожаловаться #4

2018 April 07

Karim Iskakov in RL reading group

👍👍

источник

00:27пожаловаться #5

АК

Андрей Квасов... in RL reading group

Прекрасная тема и статья интересная

источник

06:57пожаловаться #6

АК

Андрей Квасов... in RL reading group

А каким-образом модно поддержать статью попавшую на iclr?) попасть в группу поддержки?

источник

06:57пожаловаться #7

Sergey Kolesnikov in RL reading group

только Twitter - только хардкор (bair там вообще адски пиарится)

источник

07:45пожаловаться #8

Tatiana Gaintseva in RL reading group

Вооу

источник

10:54пожаловаться #9

Pavel Shvechikov in RL reading group

@Parilo @Scitator, нет желания с авторитетной точки зрения сделать обзор https://arxiv.org/pdf/1804.00361.pdf?

источник

23:45пожаловаться #10

Anton Pechenko in RL reading group

боюсь что это превратится в обзор хаков для DDPG

источник

23:50пожаловаться #11

Pavel Shvechikov in RL reading group

Если это будет с высоты вашего опыта, думаю это будет очень любопытно.

источник

23:54пожаловаться #12

Anton Pechenko in RL reading group

в таком случае я не против, я думаю, что было бы круто сделать это вместе с @Scitator и @fgvbrt

источник

23:56пожаловаться #13

2018 April 08

Sergey Kolesnikov in RL reading group

хах, это можно, рассказать всегда готов (у меня с этим предзащита 26го :) )

источник

07:35пожаловаться #14

Pavel Shvechikov in RL reading group

Anton Pechenko

в таком случае я не против, я думаю, что было бы круто сделать это вместе с @Scitator и @fgvbrt

Это было бы замечательно

источник

07:48пожаловаться #15

2018 April 09

Pavel Shvechikov in RL reading group

Наиболее полная подборка того, как агенты находят дыры в функции потерь
https://vkrakovna.wordpress.com/2018/04/02/specification-gaming-examples-in-ai/
https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml

Victoria Krakovna

Specification gaming examples in AI

Update: for a more detailed introduction to specification gaming, check out the DeepMind Safety Research blog post! Various examples (and lists of examples) of unintended behaviors in AI systems ha…

источник

09:30пожаловаться #16

2018 April 11

Evgenii Nikishin in RL reading group

докладчики, выкладывайте плз ссылки на презентации сюда
https://docs.google.com/spreadsheets/d/1ZeL1_mfR1ccwKKO_ihKs6R26pqy5bsJgU_t3jJjSN5c

источник

01:04пожаловаться #17

Pavel Shvechikov in RL reading group

Еще немного боли от тренировки RL
http://amid.fish/reproducing-deep-rl

источник

11:04пожаловаться #18

Artem Grachev in RL reading group

Я бы убрал "не"

источник

11:09пожаловаться #19

cydoroga in RL reading group

Всем привет!

В этот четверг, то есть уже завтра, на семинаре выступит Лиза Вахрамеева.

Как обычно, в ШАДе, Стенфорд, 19:00.

Если у вас нет пропуска, не забудьте зарегистрироваться по ссылке до сегодняшней ночи:
https://docs.google.com/forms/d/e/1FAIpQLSd18PGkZuOqkWThJhmNxnmiSVFicnH4YwLVTCOkEkVQV6ZIDg/viewform

Доклад будет посвящён статье DORA: The Explorer.
https://openreview.net/pdf?id=ry1arUgCW

Авторы вводят аппроксимацию счетчиков посещенных пар действий-состояний, которая позволяет учитывать неопределенность последующей за этой парой траектории.
Таким образом авторы довольно красиво решают задачу, которая уже неоднократно была озвучена в работах по RL: необходимость учёта в процессе exploration последствий действий агента в будущем, а не только мгновенного эффекта.

Приходите, будет интересно!

Google Docs

Deep RL reading group meeting

Если у Вас нет ШАДовского пропуска, и если Вы бы хотели посетить семинар, на котором разбираются статьи про RL, то эта форма – для Вас!

Несколько важных моментов:

1. Эту форму нужно будет заполнять КАЖДЫЙ РАЗ перед каждым семинаром, указывая дату предстоящего семинара

2. Отправлять форму нужно НЕ ПОЗЖЕ ВЕЧЕРА ДНЯ ПРЕДШЕСТВУЮЩЕГО СЕМИНАРУ (не позже среды, если семинар в чт). Если вдруг вы в день семинара поняли, что не успели отправить форму – пишите организаторам, что-нибудь придумаем!

3. В день семинара нужно ПРИХОДИТЬ С ПАСПОРТОМ. Без него могут не пустить.

источник

12:22пожаловаться #20