Привет!
Как, возможно, кто-то знает (а кто не знает, сейчас узнает), в середине мая выходит моя книжка со скромным названием Practical Deep RL (
https://www.packtpub.com/big-data-and-business-intelligence/practical-deep-reinforcement-learning). В ней сделан более-менее полный обзор основных методов RL, начиная с основ (Tabular value iteration, CrossEntropy), далее в базовые DQN+A2C и заканчивая более-менее последними примочками к базовым методам (например, полностью разобран Rainbow). В последней части представлен винегрет из continuos методов (DDPG, D4PG), TrustRegion (TRPO, PPO, AKTR), black-box (ES, GA), model-based (I2A) и AlphaGo Zero.
Есть три отдельные главы с более реальными задачами чем Atari: чатбот (SCST), web navigation (MiniWoB) и торговый агент пытающийся спекулировать акциями яндекса (спойлер: если торговать без коммиссии, то даже есть профит).
Уклон книжки в практику, поэтому к каждому методу по развернутому примеру. Все примеры на PyTorch 0.4.0, все проверено, сходится и специально адаптированно для лучшего понимания как все работает. Благодаря pytorch, код вышел действительно простой:
https://github.com/PacktPublishing/Practical-Deep-Reinforcement-Learning/Собственно, к чему это я все. Издательство сейчас набирает список для early review. Работает это так: вы бесплатно получаете электронную версию книжки до выхода, ваша задача прочитать и написать отзыв на amazon (или еще где). Если хотите поучаствовать, заполните пожалуйста форму вот тут:
https://goo.gl/forms/WfZUeavLqWcXOll33 (это моя табличка, я из нее данные отправлю издателю, они с вами потом свяжутся). Список ограничен 30, но если желающих будет больше, я сюда кину pdf-ку.