Size: a a a

RL reading group

2018 November 14

AG

Artem Grachev in RL reading group
а @Shmuma, ты работаешь в Островке или где?
источник

AG

Artem Grachev in RL reading group
Просто тема кажется интересной, мы тоже что-то похожее делаем в Самсунге, только не к сайтам, а мобильным телефонам.
источник

C

Constantine in RL reading group
q w
AlphaGo Zero крутой, но на сколько я понял он заточен только на дискретный мир, и не может , например играть в Марио. И если пространство действий непрерывное, то всё ещё хуже. А вот так, чтобы скрестить что-то настолько мощное как AlphaGo Zero с чем-то настолько общим как A3C? В общем умное как AlphaGo Zero с непрерывным миром и непрерывным пространством действий?

Я подумал вот о чём: можно же использовать ML чтобы извлекать правила мира, а затем уже последовательность действий искать с помощью SMT. И хочу понять, эта идея нова, или нет?
Нет не нова. Но в приложении к нейронным сетям не так много рисерча. Но почему именно SMT? Небезызвестный Yoav Goldberg в 2017 выкатил крутую статью по извлечению автоматов из рекуррентных сетей. https://arxiv.org/abs/1711.09576
источник

qw

q w in RL reading group
Constantine
Нет не нова. Но в приложении к нейронным сетям не так много рисерча. Но почему именно SMT? Небезызвестный Yoav Goldberg в 2017 выкатил крутую статью по извлечению автоматов из рекуррентных сетей. https://arxiv.org/abs/1711.09576
Ну, SMT или не SMT это зависит от того, в какой форме будет извлечена модель. Если модель извлечь как строгие формальные правила, то использование SMT будет идеальным, так как именно для этого и предназначены SMT. Если же извлечённая модель не строгая, то а какая-нибудь аппроксимированная или стохастическая, то конечно нужно что-то другое, я просто не знаю что для этого изобретено.
источник

S

Shmuma in RL reading group
Artem Grachev
а @Shmuma, ты работаешь в Островке или где?
Нет, я тут: fornova.com
источник

c

cydoroga in RL reading group
q w
Ну, SMT или не SMT это зависит от того, в какой форме будет извлечена модель. Если модель извлечь как строгие формальные правила, то использование SMT будет идеальным, так как именно для этого и предназначены SMT. Если же извлечённая модель не строгая, то а какая-нибудь аппроксимированная или стохастическая, то конечно нужно что-то другое, я просто не знаю что для этого изобретено.
Model Predictive Control например
Или какой-то model-free метод
Типа trpo
Есть годная статья про ансамблирование моделей среды с оптимизацией контроля с помощью trpo:
https://arxiv.org/abs/1802.10592
источник

c

cydoroga in RL reading group
Но тут модель мира - это не правила
источник

DL

Dmitry Lipovoi in RL reading group
q w
AlphaGo Zero крутой, но на сколько я понял он заточен только на дискретный мир, и не может , например играть в Марио. И если пространство действий непрерывное, то всё ещё хуже. А вот так, чтобы скрестить что-то настолько мощное как AlphaGo Zero с чем-то настолько общим как A3C? В общем умное как AlphaGo Zero с непрерывным миром и непрерывным пространством действий?

Я подумал вот о чём: можно же использовать ML чтобы извлекать правила мира, а затем уже последовательность действий искать с помощью SMT. И хочу понять, эта идея нова, или нет?
> можно же использовать ML чтобы извлекать правила мира, а затем уже последовательность действий искать

что-то подобное вот здесь исследовалось https://arxiv.org/abs/1707.06203
источник

C

Constantine in RL reading group
@Arqwer я про то, что вероятно извлечение более "ограниченного" класса формальных систем выглядит реалистичней
источник

qw

q w in RL reading group
Всем спасибо за статьи! Ушёл изучать.
источник
2018 November 15

c

cydoroga in RL reading group
cydoroga
Всем привет!
Завтра на семинаре выступит Максим Лапань (@Shmuma ) с темой: Deep RL в навигации по сайтам
Как обычно:
ШАД, Стенфорд, Четверг, 19:00

Аннотация:
В обучении с подкреплением пока не очень много примеров практически значимых применений, что вовсе не означает что RL бесполезен или годится только для  обучения нейросетей играть в старые игрушки.

В своем докладе Максим подробно разберет использование современного обучения с подкреплением в одном из ключевых проектов компании -- системе извлечения данных с сайтов отелей.

Приходите, будет интересно!

Если у вас нет пропуска в ШАД, не забудьте зарегистрироваться по ссылке до завтра, до 12ти утра:
https://docs.google.com/forms/d/e/1FAIpQLSd18PGkZuOqkWThJhmNxnmiSVFicnH4YwLVTCOkEkVQV6ZIDg/viewform
Напоминаю о необходимости зарегаться, если у вас нет пропуска
источник

S

Shmuma in RL reading group
Комната занята и их больше чем нас :)
источник

CP

Cherry Pie in RL reading group
А нас всего трое
источник
2018 November 20

DE

Denis E in RL reading group
привет, а где было бы уместно задавать вопросы по рл? я пока запостил в #theory_and_practice на ОДС, но может быть ещё куда-нибудь можно
источник

S

Shmuma in RL reading group
В одс есть канал про rl (reinforcement_learnin, что ли)
источник

DE

Denis E in RL reading group
а вот, мне как раз про него там сказали
источник

DE

Denis E in RL reading group
спасибо
источник
2018 November 21

c

cydoroga in RL reading group
Всем шалом!
На этой неделе семинара НЕ будет!

На следующей возобновим.
источник

CP

Cherry Pie in RL reading group
Опять из-за отсутствия докладчика?
источник

c

cydoroga in RL reading group
Да
Но вроде со следующей недели как-то желающие подтягиваются.
Постараюсь завтра внести больше ясности в ситуацию.
источник