Телеграмм чат группы theoreticalrl страница 117

2018 November 14

AG

Artem Grachev in RL reading group

а @Shmuma, ты работаешь в Островке или где?

источник

16:52пожаловаться #1

AG

Artem Grachev in RL reading group

Просто тема кажется интересной, мы тоже что-то похожее делаем в Самсунге, только не к сайтам, а мобильным телефонам.

источник

16:53пожаловаться #2

C

Constantine in RL reading group

q w

AlphaGo Zero крутой, но на сколько я понял он заточен только на дискретный мир, и не может , например играть в Марио. И если пространство действий непрерывное, то всё ещё хуже. А вот так, чтобы скрестить что-то настолько мощное как AlphaGo Zero с чем-то настолько общим как A3C? В общем умное как AlphaGo Zero с непрерывным миром и непрерывным пространством действий?

Я подумал вот о чём: можно же использовать ML чтобы извлекать правила мира, а затем уже последовательность действий искать с помощью SMT. И хочу понять, эта идея нова, или нет?

Нет не нова. Но в приложении к нейронным сетям не так много рисерча. Но почему именно SMT? Небезызвестный Yoav Goldberg в 2017 выкатил крутую статью по извлечению автоматов из рекуррентных сетей. https://arxiv.org/abs/1711.09576

источник

16:57пожаловаться #3

qw

q w in RL reading group

Constantine

Нет не нова. Но в приложении к нейронным сетям не так много рисерча. Но почему именно SMT? Небезызвестный Yoav Goldberg в 2017 выкатил крутую статью по извлечению автоматов из рекуррентных сетей. https://arxiv.org/abs/1711.09576

Ну, SMT или не SMT это зависит от того, в какой форме будет извлечена модель. Если модель извлечь как строгие формальные правила, то использование SMT будет идеальным, так как именно для этого и предназначены SMT. Если же извлечённая модель не строгая, то а какая-нибудь аппроксимированная или стохастическая, то конечно нужно что-то другое, я просто не знаю что для этого изобретено.

источник

17:08пожаловаться #4

S

Shmuma in RL reading group

Artem Grachev

а @Shmuma, ты работаешь в Островке или где?

Нет, я тут: fornova.com

источник

17:09пожаловаться #5

c

cydoroga in RL reading group

q w

Ну, SMT или не SMT это зависит от того, в какой форме будет извлечена модель. Если модель извлечь как строгие формальные правила, то использование SMT будет идеальным, так как именно для этого и предназначены SMT. Если же извлечённая модель не строгая, то а какая-нибудь аппроксимированная или стохастическая, то конечно нужно что-то другое, я просто не знаю что для этого изобретено.

Model Predictive Control например
Или какой-то model-free метод
Типа trpo
Есть годная статья про ансамблирование моделей среды с оптимизацией контроля с помощью trpo:
https://arxiv.org/abs/1802.10592

arXiv.org

Model-Ensemble Trust-Region Policy Optimization

Model-free reinforcement learning (RL) methods are succeeding in a growing
number of tasks, aided by recent advances in deep learning. However, they tend
to suffer from high sample complexity,...

источник

17:12пожаловаться #6

c

cydoroga in RL reading group

Но тут модель мира - это не правила

источник

17:14пожаловаться #7

DL

Dmitry Lipovoi in RL reading group

q w

AlphaGo Zero крутой, но на сколько я понял он заточен только на дискретный мир, и не может , например играть в Марио. И если пространство действий непрерывное, то всё ещё хуже. А вот так, чтобы скрестить что-то настолько мощное как AlphaGo Zero с чем-то настолько общим как A3C? В общем умное как AlphaGo Zero с непрерывным миром и непрерывным пространством действий?

Я подумал вот о чём: можно же использовать ML чтобы извлекать правила мира, а затем уже последовательность действий искать с помощью SMT. И хочу понять, эта идея нова, или нет?

> можно же использовать ML чтобы извлекать правила мира, а затем уже последовательность действий искать

что-то подобное вот здесь исследовалось https://arxiv.org/abs/1707.06203

источник

17:17пожаловаться #8

C

Constantine in RL reading group

@Arqwer я про то, что вероятно извлечение более "ограниченного" класса формальных систем выглядит реалистичней

источник

17:17пожаловаться #9

qw

q w in RL reading group

Всем спасибо за статьи! Ушёл изучать.

источник

17:48пожаловаться #10

2018 November 15

c

cydoroga in RL reading group

cydoroga

Всем привет!
Завтра на семинаре выступит Максим Лапань (@Shmuma ) с темой: Deep RL в навигации по сайтам
Как обычно:
ШАД, Стенфорд, Четверг, 19:00

Аннотация:
В обучении с подкреплением пока не очень много примеров практически значимых применений, что вовсе не означает что RL бесполезен или годится только для обучения нейросетей играть в старые игрушки.

В своем докладе Максим подробно разберет использование современного обучения с подкреплением в одном из ключевых проектов компании -- системе извлечения данных с сайтов отелей.

Приходите, будет интересно!

Если у вас нет пропуска в ШАД, не забудьте зарегистрироваться по ссылке до завтра, до 12ти утра:
https://docs.google.com/forms/d/e/1FAIpQLSd18PGkZuOqkWThJhmNxnmiSVFicnH4YwLVTCOkEkVQV6ZIDg/viewform

Google Docs

Deep RL reading group meeting

Если у Вас нет ШАДовского пропуска, и если Вы бы хотели посетить семинар, на котором разбираются статьи про RL, то эта форма – для Вас!

Несколько важных моментов:

1. Эту форму нужно будет заполнять КАЖДЫЙ РАЗ перед каждым семинаром, указывая дату предстоящего семинара

2. Отправлять форму нужно НЕ ПОЗЖЕ ВЕЧЕРА ДНЯ ПРЕДШЕСТВУЮЩЕГО СЕМИНАРУ (не позже среды, если семинар в чт). Если вдруг вы в день семинара поняли, что не успели отправить форму – пишите организаторам, что-нибудь придумаем!

3. В день семинара нужно ПРИХОДИТЬ С ПАСПОРТОМ. Без него могут не пустить.