Телеграмм чат группы theoreticalrl страница 132

Всем привет!
Сорри за долгую загрузку - импорт с видеокамеры занял времени дольше ожидаемого.
Видео выступлений по DRL from Human Preferences и Go-Explore доступны на странице канала:

https://www.youtube.com/channel/UC6KYPBaACVG0pkBWH5bkWLQ?view_as=subscriber

Как там... подписывайтесь, ставьте лайки, делитесь с друзьями!

PS информация по выступлению в этот четверг появится завтра днем.

YouTube

Reinforcement Learning Reading Group

источник

01:48пожаловаться #4

c

cydoroga in RL reading group

Всем привет!

На этой неделе на семинаре выступит Алексей Бойко, аспирант Сколтеха с рассказом о том, как можно использовать Tensor Train разложение для решения уравнения Беллмана.

Четверг, ШАД
Аудитория: Стенфорд
19:00

Approximate Dynamic Programming with Tensor Train Decomposition
————————————————————————————————-
Reinforcement Learning has emerged as a way of solving Bellman Equation by means of fitting generic function approximators by statistical sampling approach.
It got a lot of attention, partially due to its ability to cope with Curse of Dimensionality of Bellman Equation.
However, recently some other mathematical approaches have appeared do deal with high-dimensional data. One of the most prominent of those is Tensor Train.

Tensor Train may be seen as SVD-alike adaptive lossy compression algorithm, which allows to perform main mathematical operation on data without uncompressing it. It may provide up to logarithmic win in memory and time complexity (N -> logN), and have beaten a bunch of area-specific state of the art methods of solving high-dimensional partial differential equations in physics and quantum chemistry .

A paper on RSS (A*-conference in Robotics) have shown, that Bellman Equation arising in continious stochastic control problems may be also subject to the magic TT conpression, allowing to perform stadard Value and Policy Iteration algorithms on CPU on a up to 12-dimensional problem with the vector state up to the size of 10^24 elements, in a time of a few hours. Inference is also may be done without GPUs on a robot device, such as RPi 3+ or Intel NUC.

Ссылки:
https://www.researchgate.net/publication/281275027_Efficient_High-Dimensional_Stochastic_Optimal_Motion_Control_using_Tensor-Train_Decomposition

https://www.researchgate.net/publication/220412263_Tensor-Train_Decomposition

ResearchGate

(PDF) Efficient High-Dimensional Stochastic Optimal Motion Control using Tensor-Train Decomposition

PDF | Stochastic optimal control problems frequently arise as motion control problems in the context of robotics. Unfortunately, all existing approaches... | Find, read and cite all the research you need on ResearchGate

источник

16:58пожаловаться #5

c

cydoroga in RL reading group

Статья:

источник

16:58пожаловаться #6

c

cydoroga in RL reading group

Переслано от Alexey Boyko

c

cydoroga in RL reading group

Переслано от cydoroga

Если у вас нет пропуска в ШАД, не забудьте зарегистрироваться по ссылке до 10ти часов утра четверга:
https://docs.google.com/forms/d/e/1FAIpQLSd18PGkZuOqkWThJhmNxnmiSVFicnH4YwLVTCOkEkVQV6ZIDg/viewform

Google Docs

Deep RL reading group meeting

Если у Вас нет ШАДовского пропуска, и если Вы бы хотели посетить семинар, на котором разбираются статьи про RL, то эта форма – для Вас!

Несколько важных моментов:

1. Эту форму нужно будет заполнять КАЖДЫЙ РАЗ перед каждым семинаром, указывая дату предстоящего семинара

2. Отправлять форму нужно НЕ ПОЗЖЕ ВЕЧЕРА ДНЯ ПРЕДШЕСТВУЮЩЕГО СЕМИНАРУ (не позже среды, если семинар в чт). Если вдруг вы в день семинара поняли, что не успели отправить форму – пишите организаторам, что-нибудь придумаем!

3. В день семинара нужно ПРИХОДИТЬ С ПАСПОРТОМ. Без него могут не пустить.

источник

16:58пожаловаться #8

2019 March 07

NP

Nikita Petrenko in RL reading group

Привет!

А сегодня семинар будет?

источник

19:01пожаловаться #9

c

cydoroga in RL reading group

Будет!
Но с небольшой задержкой
У нас проблемы на пропускной

источник

19:02пожаловаться #10

NP

Nikita Petrenko in RL reading group

понял, спасибо

источник

19:02пожаловаться #11

c

cydoroga in RL reading group

На пропускной сегодня не очень хотят пропускать: если кто-то не может войти, пишите мне - решим

источник

19:09пожаловаться #12

2019 March 09

c

cydoroga in RL reading group

Всем привет!

В этот четверг прошёл очень крутой, на мой взгляд, семинар от Алексея Бойко.
С довольно радикальным, для RL сообщества, взглядом на решение задачи обучения агентов с использованием ТТ разложения
И с собственной имплементацией, что круто!

Запись семинара доступна на канале группы:
https://youtu.be/mVsZlHnZGWk

ПС открываю мини-конкурс на аватарку для канала и на фоновую картинку канала
Присылайте предложения мне в личку. Если выбор будет сложным, потом запущу голосовалку.
Скрин того, где это будет отображено на канале, прилагаю

источник

22:36пожаловаться #13

2019 March 11

SK

Sergey Kolesnikov in RL reading group

хай гайз,

На московском Датафесте будет секция за RL, куда приглашаются смелые люди, готовые голосно рассказать о своих агентах, их взлетах и падениях.

Статьи, соревнования, production usage, странные pet projects во славу RL - именно это мы и ищем. Или может вы сумели завести алготрейдинг на RL и готовы раскрыть все свои карты?
Interested? пишите 😉

let's make test env train again!

источник

16:45пожаловаться #14

AB

Alexey Boyko in RL reading group

Sergey Kolesnikov

хай гайз,

На московском Датафесте будет секция за RL, куда приглашаются смелые люди, готовые голосно рассказать о своих агентах, их взлетах и падениях.

Статьи, соревнования, production usage, странные pet projects во славу RL - именно это мы и ищем. Или может вы сумели завести алготрейдинг на RL и готовы раскрыть все свои карты?
Interested? пишите 😉

let's make test env train again!

А когда будет? Я мб бы про тт-беллмана рассказал

источник

17:43пожаловаться #15

SK

Sergey Kolesnikov in RL reading group

ух, datafest 6 будет 11 мая

источник

17:47пожаловаться #16

AB

Alexey Boyko in RL reading group

Ну пока это в статусе пет проджект)

источник

18:04пожаловаться #17

c

cydoroga in RL reading group

Всем привет!

На этой неделе на семинаре выступит Михаил Ягудин и расскажет про DeepStack.

Четверг, ШАД
Аудитория: Стенфорд
19:00

Нейронная сеть идёт ва-банк 🎲

Я расскажу про DeepStack, алгоритм, обыгрывающий людей в No-Limit Texas Hold-em, известную игру с неполной информацией. Основная идея — использовать Сounterfactual Regret Minimization, чтобы найти смешанную стратегию, приближающую стратегию равновесия Нэша; и использовать нейронные сети в качестве функциональных апроксиматоров.

https://arxiv.org/abs/1701.01724
https://github.com/lifrordi/DeepStack-Leduc
https://www.deepstack.ai/

Приходите, будет интересно!

источник

23:24пожаловаться #18

c

cydoroga in RL reading group

Переслано от cydoroga

Если у вас нет пропуска в ШАД, не забудьте зарегистрироваться по ссылке до 10ти часов утра четверга:
https://docs.google.com/forms/d/e/1FAIpQLSd18PGkZuOqkWThJhmNxnmiSVFicnH4YwLVTCOkEkVQV6ZIDg/viewform

Google Docs

Deep RL reading group meeting

Если у Вас нет ШАДовского пропуска, и если Вы бы хотели посетить семинар, на котором разбираются статьи про RL, то эта форма – для Вас!

Несколько важных моментов:

1. Эту форму нужно будет заполнять КАЖДЫЙ РАЗ перед каждым семинаром, указывая дату предстоящего семинара

2. Отправлять форму нужно НЕ ПОЗЖЕ ВЕЧЕРА ДНЯ ПРЕДШЕСТВУЮЩЕГО СЕМИНАРУ (не позже среды, если семинар в чт). Если вдруг вы в день семинара поняли, что не успели отправить форму – пишите организаторам, что-нибудь придумаем!

3. В день семинара нужно ПРИХОДИТЬ С ПАСПОРТОМ. Без него могут не пустить.

источник

23:24пожаловаться #19

c

cydoroga in RL reading group

ВНИМАНИЕ:
Напоминаю, что у нас все еще свободны слоты на выступление 21го и 28го числа!
Записаться можно по ссылке:
https://docs.google.com/spreadsheets/d/1ULg_NJ8ncDyluvLXmgyX9YiOdKGd4Kh-D6GNWC61Arc/edit?usp=sharing

Выступление помогает по-настоящему разобраться в том, с чем выступаешь, и посмотреть на проблему по-новому.

Google Docs

Запись на выступление DRL reading group

Лист1

Дата,Выступающий,Тема доклада
20.06.19
27.06.19
04.07.19
11.07.19
18.07.19
25.07.19
01.08.19
08.08.19

источник

23:33пожаловаться #20