Size: a a a

RL reading group

2018 April 11

P

Pavel Shvechikov in RL reading group
Коллеги, нужно понять, стоит ли проводить семинар 10 мая?

Да, я смогу быть – 13
👍👍👍👍👍👍👍 46%

Да, я потом гляну видос – 13
👍👍👍👍👍👍👍 46%

Нет, давайте отдохнем – 2
👍 7%

👥 28 people voted so far.
источник

SK

Sergey Kolesnikov in RL reading group
парни (и девушки), проревьюйте пожалуйста заметки по последнему семинару- https://github.com/Scitator/papers/blob/master/papers/1801_soft_ac.md

может, я где не прав? а то пока все у меня свелось к чуть более доработанному DDPG
источник
2018 April 12

AG

Aleksey Grinchuk in RL reading group
Касательно смеси гауссиан. Я думаю, что это было сделано для максимальной общности метода. В смысле показать, что можно использовать несколько более сложный класс функций чем просто гауссиану.

Эксперименты же проводились на средах, где смысла в этих смесях особо нет, т.к. среды не очень стохастические и использование смеси на них — это overkill. Кстати, если у кого-то есть возможность позапускать SAC для смеси и посмотреть на веса компонент — было бы интересно. Мне почему-то кажется, что там веса в ноль уходят и остаётся только одна компонента.
источник

SK

Sergey Kolesnikov in RL reading group
@Parilo а у тебя случайно знакомых сред, где смесь гауссиан зайти могла нет? где-нибудь для self-driving?
@rl_agent а кинешь в меня контактом, по которому на тебя ссылаться аки ревьюера?
источник

AP

Anton Pechenko in RL reading group
Carla :) вообще селф-драйвинг не такой уж сложный, в нем мало актуаторов и машина сама по себе устойчивая в отличии от humanoid
источник

AP

Anton Pechenko in RL reading group
источник

AP

Anton Pechenko in RL reading group
видно/слышно?
источник

c

cydoroga in RL reading group
Presentation
источник

c

cydoroga in RL reading group
Переслано от Liza Vakhrameeva
источник
2018 April 16

P

Pavel Shvechikov in RL reading group
Какими свойствами должна обладать среда с точки зрения идеального тестирования RL алгоритмов?
Какие работы на эту тему есть?
источник

AP

Anton Pechenko in RL reading group
Работ на эту тему не видел, но она должна быть очень быстрой, чтобы позволяла увидеть результат уже за пару часов на 1080, мне очень понравилась https://github.com/AlexGrinch/snake_research для дискретного управления для непрерывного пока нечего посоветовать. Раньше я использовал эту https://www.youtube.com/watch?v=acQJfkgeiZc, она быстрая и на с++, но к ней нет адаптера в стиле gym
источник

АК

Андрей Квасов... in RL reading group
источник

АК

Андрей Квасов... in RL reading group
Полноценного ресерча я не видел, но среды для разных задач должны иметь разные идеальные свойства. Особенно в зависимости от цели - создать практичный метод под прикладную задачу или рассмотреть общие характеристики алгоритмов, вне зависимости от прикладной задачи (скорость обучения, сходимость и т.п.). Возможно, получится перейти от частности к общему.

К примеру, я рассматривал множество сред для навигации роботов, indoor, outdoor. Работ много, много новых сред и каждая сравнивается с предыдущими, подчеркивая достижения «идеального тестирования».

Как уже сказал Антон, важным показателем является скорость рендеринга и других показателей состояния среды. Второе - возможность аугментации данных - генерация различных окружений и начальных состояний. Третье - реалистичность и разнообразите наблюдений, по которым можно оценить состояние (RGB, depth, звук и физика в симуляции).

Думаю минимум эти три показателя важны для тестирования RL алгоритмов.
источник
2018 April 18

c

cydoroga in RL reading group
Наш чатик не сдается в борьбе за телеграм и завтра, как обычно, пройдет наш семинар:
В 19:00
ШАД, Стенфорд

На семинаре выступит Татьяна Савельева с докладом по статье Generative Multi-Agent Behavioral Cloning

Если у вас нет пропуска, не забудьте зарегистрироваться по ссылке до сегодняшней ночи:
https://docs.google.com/forms/d/e/1FAIpQLSd18PGkZuOqkWThJhmNxnmiSVFicnH4YwLVTCOkEkVQV6ZIDg/viewform

В современном RL становятся все более актуальными задачи, в которых необходимо моделирование поведения нескольких агентов одновременно. Например, в игре в баскетбол, игроки должны не просто хорошо играть по отдельности, но и уметь кооперироваться.
Авторы предлагают алгоритм, который позволяет генерировать правдоподобные траектории игроков на поле, оптимизировать совместное поведение игроков и осуществлять планирование на длительное время (с помощью макро-целей).
Алгоритм позволяет игрокам иметь несколько вариантов стратегии (мультимодальность), и превосходит другие методы в этой задаче.
Метод работает в стиле Behavioral Cloning и настраивается по имеющимся примерам взаимодействия со средой.

Приходите, будет интересно!
источник

c

cydoroga in RL reading group
И еще, на случай, если телеграм все же отвалится, нам стоит подумать о том, в какую плоскость переместить этот чат.
Пройдите, пожалуйста, опрос:
https://goo.gl/forms/CurvdMGFhsKNKCkA3
источник
2018 April 19

SK

Sergey Kolesnikov in RL reading group
не дождешься, не забанишь.... продожая еженедельную традицию, выкладываю мини-обзор предыдущего семинара - https://github.com/Scitator/papers/blob/master/papers/1804_dora.md
пните меня, что не так
Liza напиши плиз, как на тебя лучше сослаться и еще вопросик:
а ты знаешь подробности того, как они E-счетчики применяли для continuos сред? нашел этот момент в статье немного расплывчатым....и конечно же, буду благодарен за любые комментарии по заметкам
источник

AP

Anton Pechenko in RL reading group
источник

AP

Anton Pechenko in RL reading group
видно? слышно?
источник

c

cydoroga in RL reading group
Переслано от Татьяна Савельева...
источник

SI

Sergey Ivanov in RL reading group
Anton Pechenko
видно? слышно?
да, всё супер
источник