Size: a a a

RL reading group

2018 May 01

SK

Sergey Kolesnikov in RL reading group
немного рекламы: OpenAI запустили очень годный контест (так-то уже месяц как) - https://contest.openai.com
и даже выпустили статью (long story short - https://github.com/Scitator/papers/blob/master/papers/1804_gotta_learn_fast.md)
если кто еще планирует участвовать - можем огранизовать чатик для ideas sharing (довольно сильно помогает, так-то)
источник

SK

Sergey Kolesnikov in RL reading group
в общем, если кто еще хочет поучастваовать, go в ods.slack в канал #reinforcement_learnin
источник
2018 May 02

c

cydoroga in RL reading group
Всем привет!
Прошу прощения за поздний анонс
Завтра на семинаре выступит Татьяна Гайнцева

В 19:00, ШАД, Стенфорд

Доклад будет про статью StarCraft Micromanagement with Reinforcement Learning

Если у вас нет пропуска, не забудьте зарегистрироваться по ссылке до сегодняшней ночи :
https://docs.google.com/forms/d/e/1FAIpQLSd18PGkZuOqkWThJhmNxnmiSVFicnH4YwLVTCOkEkVQV6ZIDg/viewform

Мы проведём обзор предложенного метода микроменеджмента в игре StarCraft с помощью RL с хорошей обобщающей способностью на другие среды.
Для среды StarCraft и схожих с ней сред пока нет хорошего решения с помощью AI, все предложенные ранее модели не дотягивают до уровня premium-level игрока. Предложенная в статье модель во многих сценариях показывает себя лучше premium-level игрока, добиваясь даже 100% побед над game built-in AI в серии из 100 игр

Приходите будет интересно
источник
2018 May 03

S

Shmuma in RL reading group
Привет!

Как, возможно, кто-то знает (а кто не знает, сейчас узнает), в середине мая выходит моя книжка со скромным названием Practical Deep RL (https://www.packtpub.com/big-data-and-business-intelligence/practical-deep-reinforcement-learning). В ней сделан более-менее полный обзор основных методов RL, начиная с основ (Tabular value iteration, CrossEntropy), далее в базовые DQN+A2C и заканчивая более-менее последними примочками к базовым методам (например, полностью разобран Rainbow). В последней части представлен винегрет из continuos методов (DDPG, D4PG), TrustRegion (TRPO, PPO, AKTR), black-box (ES, GA), model-based (I2A) и AlphaGo Zero.

Есть три отдельные главы с более реальными задачами чем Atari: чатбот (SCST), web navigation (MiniWoB) и торговый агент пытающийся спекулировать акциями яндекса (спойлер: если торговать без коммиссии, то даже есть профит).

Уклон книжки в практику, поэтому к каждому методу по развернутому примеру. Все примеры на PyTorch 0.4.0, все проверено, сходится и специально адаптированно для лучшего понимания как все работает. Благодаря pytorch, код вышел действительно простой: https://github.com/PacktPublishing/Practical-Deep-Reinforcement-Learning/

Собственно, к чему это я все. Издательство сейчас набирает список для early review. Работает это так: вы бесплатно получаете электронную версию книжки до выхода, ваша задача прочитать и написать отзыв на amazon (или еще где). Если хотите поучаствовать, заполните пожалуйста форму вот тут: https://goo.gl/forms/WfZUeavLqWcXOll33 (это моя табличка, я из нее данные отправлю издателю, они с вами потом свяжутся). Список ограничен 30, но если желающих будет больше, я сюда кину pdf-ку.
источник

AP

Anton Pechenko in RL reading group
Я сегодня не смогу быть и провести трансляцию, если кто-то сможет провести или записать - это было бы здорово, тем более что тема очень интересная!
источник

S

Shmuma in RL reading group
Ок, запишем
источник

AP

Anton Pechenko in RL reading group
Спасибо!
источник

EN

Evgenii Nikishin in RL reading group
Shmuma
Привет!

Как, возможно, кто-то знает (а кто не знает, сейчас узнает), в середине мая выходит моя книжка со скромным названием Practical Deep RL (https://www.packtpub.com/big-data-and-business-intelligence/practical-deep-reinforcement-learning). В ней сделан более-менее полный обзор основных методов RL, начиная с основ (Tabular value iteration, CrossEntropy), далее в базовые DQN+A2C и заканчивая более-менее последними примочками к базовым методам (например, полностью разобран Rainbow). В последней части представлен винегрет из continuos методов (DDPG, D4PG), TrustRegion (TRPO, PPO, AKTR), black-box (ES, GA), model-based (I2A) и AlphaGo Zero.

Есть три отдельные главы с более реальными задачами чем Atari: чатбот (SCST), web navigation (MiniWoB) и торговый агент пытающийся спекулировать акциями яндекса (спойлер: если торговать без коммиссии, то даже есть профит).

Уклон книжки в практику, поэтому к каждому методу по развернутому примеру. Все примеры на PyTorch 0.4.0, все проверено, сходится и специально адаптированно для лучшего понимания как все работает. Благодаря pytorch, код вышел действительно простой: https://github.com/PacktPublishing/Practical-Deep-Reinforcement-Learning/

Собственно, к чему это я все. Издательство сейчас набирает список для early review. Работает это так: вы бесплатно получаете электронную версию книжки до выхода, ваша задача прочитать и написать отзыв на amazon (или еще где). Если хотите поучаствовать, заполните пожалуйста форму вот тут: https://goo.gl/forms/WfZUeavLqWcXOll33 (это моя табличка, я из нее данные отправлю издателю, они с вами потом свяжутся). Список ограничен 30, но если желающих будет больше, я сюда кину pdf-ку.
нихера себе
источник

СВ

Сергей Власов... in RL reading group
А где-то можно посмотреть записи лекций?
источник

TG

Tatiana Gaintseva in RL reading group
Shmuma
Привет!

Как, возможно, кто-то знает (а кто не знает, сейчас узнает), в середине мая выходит моя книжка со скромным названием Practical Deep RL (https://www.packtpub.com/big-data-and-business-intelligence/practical-deep-reinforcement-learning). В ней сделан более-менее полный обзор основных методов RL, начиная с основ (Tabular value iteration, CrossEntropy), далее в базовые DQN+A2C и заканчивая более-менее последними примочками к базовым методам (например, полностью разобран Rainbow). В последней части представлен винегрет из continuos методов (DDPG, D4PG), TrustRegion (TRPO, PPO, AKTR), black-box (ES, GA), model-based (I2A) и AlphaGo Zero.

Есть три отдельные главы с более реальными задачами чем Atari: чатбот (SCST), web navigation (MiniWoB) и торговый агент пытающийся спекулировать акциями яндекса (спойлер: если торговать без коммиссии, то даже есть профит).

Уклон книжки в практику, поэтому к каждому методу по развернутому примеру. Все примеры на PyTorch 0.4.0, все проверено, сходится и специально адаптированно для лучшего понимания как все работает. Благодаря pytorch, код вышел действительно простой: https://github.com/PacktPublishing/Practical-Deep-Reinforcement-Learning/

Собственно, к чему это я все. Издательство сейчас набирает список для early review. Работает это так: вы бесплатно получаете электронную версию книжки до выхода, ваша задача прочитать и написать отзыв на amazon (или еще где). Если хотите поучаствовать, заполните пожалуйста форму вот тут: https://goo.gl/forms/WfZUeavLqWcXOll33 (это моя табличка, я из нее данные отправлю издателю, они с вами потом свяжутся). Список ограничен 30, но если желающих будет больше, я сюда кину pdf-ку.
источник

YY

Yulia Yakovleva 🚀🤔... in RL reading group
Shmuma
Привет!

Как, возможно, кто-то знает (а кто не знает, сейчас узнает), в середине мая выходит моя книжка со скромным названием Practical Deep RL (https://www.packtpub.com/big-data-and-business-intelligence/practical-deep-reinforcement-learning). В ней сделан более-менее полный обзор основных методов RL, начиная с основ (Tabular value iteration, CrossEntropy), далее в базовые DQN+A2C и заканчивая более-менее последними примочками к базовым методам (например, полностью разобран Rainbow). В последней части представлен винегрет из continuos методов (DDPG, D4PG), TrustRegion (TRPO, PPO, AKTR), black-box (ES, GA), model-based (I2A) и AlphaGo Zero.

Есть три отдельные главы с более реальными задачами чем Atari: чатбот (SCST), web navigation (MiniWoB) и торговый агент пытающийся спекулировать акциями яндекса (спойлер: если торговать без коммиссии, то даже есть профит).

Уклон книжки в практику, поэтому к каждому методу по развернутому примеру. Все примеры на PyTorch 0.4.0, все проверено, сходится и специально адаптированно для лучшего понимания как все работает. Благодаря pytorch, код вышел действительно простой: https://github.com/PacktPublishing/Practical-Deep-Reinforcement-Learning/

Собственно, к чему это я все. Издательство сейчас набирает список для early review. Работает это так: вы бесплатно получаете электронную версию книжки до выхода, ваша задача прочитать и написать отзыв на amazon (или еще где). Если хотите поучаствовать, заполните пожалуйста форму вот тут: https://goo.gl/forms/WfZUeavLqWcXOll33 (это моя табличка, я из нее данные отправлю издателю, они с вами потом свяжутся). Список ограничен 30, но если желающих будет больше, я сюда кину pdf-ку.
А для того, чтобы записаться на early review, нужен сильный background, да? 🤔
источник

TG

Tatiana Gaintseva in RL reading group
Yulia Yakovleva 🚀🤔
А для того, чтобы записаться на early review, нужен сильный background, да? 🤔
Судя по гуглформе, нужно иметь почту и имя))
источник

EZ

Evgenii Zheltonozhsk... in RL reading group
Shmuma
Привет!

Как, возможно, кто-то знает (а кто не знает, сейчас узнает), в середине мая выходит моя книжка со скромным названием Practical Deep RL (https://www.packtpub.com/big-data-and-business-intelligence/practical-deep-reinforcement-learning). В ней сделан более-менее полный обзор основных методов RL, начиная с основ (Tabular value iteration, CrossEntropy), далее в базовые DQN+A2C и заканчивая более-менее последними примочками к базовым методам (например, полностью разобран Rainbow). В последней части представлен винегрет из continuos методов (DDPG, D4PG), TrustRegion (TRPO, PPO, AKTR), black-box (ES, GA), model-based (I2A) и AlphaGo Zero.

Есть три отдельные главы с более реальными задачами чем Atari: чатбот (SCST), web navigation (MiniWoB) и торговый агент пытающийся спекулировать акциями яндекса (спойлер: если торговать без коммиссии, то даже есть профит).

Уклон книжки в практику, поэтому к каждому методу по развернутому примеру. Все примеры на PyTorch 0.4.0, все проверено, сходится и специально адаптированно для лучшего понимания как все работает. Благодаря pytorch, код вышел действительно простой: https://github.com/PacktPublishing/Practical-Deep-Reinforcement-Learning/

Собственно, к чему это я все. Издательство сейчас набирает список для early review. Работает это так: вы бесплатно получаете электронную версию книжки до выхода, ваша задача прочитать и написать отзыв на amazon (или еще где). Если хотите поучаствовать, заполните пожалуйста форму вот тут: https://goo.gl/forms/WfZUeavLqWcXOll33 (это моя табличка, я из нее данные отправлю издателю, они с вами потом свяжутся). Список ограничен 30, но если желающих будет больше, я сюда кину pdf-ку.
а сколько там и за сколько надо прочитать
источник

S

Shmuma in RL reading group
Отвечу сразу всем.
@Atmyre: ^_^
@robolamp: никакого сильного background не надо, так как книжка ориентирована скорее на начинающих познавать RL чем на матёрых мэтров. Формул там по минимуму, из prerequisites только немножко DL и ML.
@EvgeniyZh: примерно 350 страниц, за какое время надо будет читать не знаю. Но думаю что все прочитывать внимательно и дотошно и не требуется. Отзыв же, а не экзамен :)
источник

YY

Yulia Yakovleva 🚀🤔... in RL reading group
Shmuma
Отвечу сразу всем.
@Atmyre: ^_^
@robolamp: никакого сильного background не надо, так как книжка ориентирована скорее на начинающих познавать RL чем на матёрых мэтров. Формул там по минимуму, из prerequisites только немножко DL и ML.
@EvgeniyZh: примерно 350 страниц, за какое время надо будет читать не знаю. Но думаю что все прочитывать внимательно и дотошно и не требуется. Отзыв же, а не экзамен :)
О, это как раз мне подходит!
источник

AA

Albert Atlasov in RL reading group
Тоже записался)
источник

TG

Tatiana Gaintseva in RL reading group
Всё в Стенфорде?
источник

c

cydoroga in RL reading group
Ага
источник

TG

Tatiana Gaintseva in RL reading group
а это
источник

TG

Tatiana Gaintseva in RL reading group
еще не все пришли, да?
источник