Size: a a a

RL reading group

2018 November 08

TG

Tatiana Gaintseva in RL reading group
cydoroga
Блин, я понимаю, что это уже становится смешным, но я вынужден отменить семинар ещё раз
Прошу прощения
У меня тут проблемы с соседями дома поскольку течёт труба и я их топлю
И сейчас необходимо решать эту проблему и я не могу чисто физически приехать
Ещё раз прошу прощения, мне очень стыдно за эту ситуацию, но не могу ее сейчас решить иначе
может, дублера на всякий случай назначать всегда?)
источник
2018 November 09

YG

Yury Gorishniy in RL reading group
источник

SK

Sergey Kolesnikov in RL reading group
внезапно, @rl_agent можешь кинуть исходники презы про SAC свои?
источник
2018 November 13

S

Shmuma in RL reading group
Вопрос про грядущий четверг: 2b || ~2b?
источник

AP

Anton Pechenko in RL reading group
выражение всегда True
источник

AP

Anton Pechenko in RL reading group
источник

S

Shmuma in RL reading group
В качестве запасного доклада могу предложить повторить свое выступление на sbdj в прошлую субботу (тема "rl в web-навигации"). Если интересно, конечно :)
источник

S

Shmuma in RL reading group
Anton Pechenko
выражение всегда True
Многие философские школы имеют свое мнение на этот спорный вопрос :)
источник

AP

Anton Pechenko in RL reading group
Окай)
источник
2018 November 14

SA

See All in RL reading group
Welcome to Spinning Up in Deep RL! — Spinning Up documentation
https://spinningup.openai.com/en/latest/
источник

SA

See All in RL reading group
Давно эта дока появилась, я слоупок, да?
источник

AG

Artem Grachev in RL reading group
ну с недельку типо…
источник

AG

Artem Grachev in RL reading group
+-
источник

c

cydoroga in RL reading group
Всем привет!
Завтра на семинаре выступит Максим Лапань (@Shmuma ) с темой: Deep RL в навигации по сайтам
Как обычно:
ШАД, Стенфорд, Четверг, 19:00

Аннотация:
В обучении с подкреплением пока не очень много примеров практически значимых применений, что вовсе не означает что RL бесполезен или годится только для  обучения нейросетей играть в старые игрушки.

В своем докладе Максим подробно разберет использование современного обучения с подкреплением в одном из ключевых проектов компании -- системе извлечения данных с сайтов отелей.

Приходите, будет интересно!

Если у вас нет пропуска в ШАД, не забудьте зарегистрироваться по ссылке до завтра, до 12ти утра:
https://docs.google.com/forms/d/e/1FAIpQLSd18PGkZuOqkWThJhmNxnmiSVFicnH4YwLVTCOkEkVQV6ZIDg/viewform
источник

qw

q w in RL reading group
Ребят, я не особо слежу за современным RL, я немного из другой области. У меня такой вопрос, а есть ли RL методы, которые под капотом применяют техники из области автоматических рассуждений? Ну там, SMT солверы например? И будет ли умный RL агент применять что-то более-менее рациональное если ему встретится комбинаторная подзадача? Например, если мы переформулируем задачу решения судоку в термины RL, то будет ли агент применять что-то более-менее умное?
источник

AP

Anton Pechenko in RL reading group
Что такое судоку я не знаю, но ты смотрел на AlphaGo Zero?
источник

АС

Артём С in RL reading group
q w
Ребят, я не особо слежу за современным RL, я немного из другой области. У меня такой вопрос, а есть ли RL методы, которые под капотом применяют техники из области автоматических рассуждений? Ну там, SMT солверы например? И будет ли умный RL агент применять что-то более-менее рациональное если ему встретится комбинаторная подзадача? Например, если мы переформулируем задачу решения судоку в термины RL, то будет ли агент применять что-то более-менее умное?
Большинство современных методов использует нейросети и градиентный спуск, а эти вещи плохо дружат с дискретными процессами (вроде SMT солверов)
источник

C

Constantine in RL reading group
источник

qw

q w in RL reading group
AlphaGo Zero крутой, но на сколько я понял он заточен только на дискретный мир, и не может , например играть в Марио. И если пространство действий непрерывное, то всё ещё хуже. А вот так, чтобы скрестить что-то настолько мощное как AlphaGo Zero с чем-то настолько общим как A3C? В общем умное как AlphaGo Zero с непрерывным миром и непрерывным пространством действий?

Я подумал вот о чём: можно же использовать ML чтобы извлекать правила мира, а затем уже последовательность действий искать с помощью SMT. И хочу понять, эта идея нова, или нет?
источник

c

cydoroga in RL reading group
q w
AlphaGo Zero крутой, но на сколько я понял он заточен только на дискретный мир, и не может , например играть в Марио. И если пространство действий непрерывное, то всё ещё хуже. А вот так, чтобы скрестить что-то настолько мощное как AlphaGo Zero с чем-то настолько общим как A3C? В общем умное как AlphaGo Zero с непрерывным миром и непрерывным пространством действий?

Я подумал вот о чём: можно же использовать ML чтобы извлекать правила мира, а затем уже последовательность действий искать с помощью SMT. И хочу понять, эта идея нова, или нет?
Велком в мир model-based rl
источник