Товарищи, в этот четверг, в ШАДе, Оксфорд
В 19:00
Мы послушаем доклад Михаила Конобеева про статью Equivalence Between Policy-Gradients and Soft Q-learning.
https://arxiv.org/abs/1704.06440Это продолжение выступления, которым мы закончили прошлый год
Успех value-based методов в современном обучении с подкреплением оказывается не до конца обоснованным. Возможное объяснение их работы
заключается в том, что данные методы скрыто проводят обновления параметров схожие с обновлениями согласно policy-gradient методам. В статье доказывается эквивалентность value-based и policy-gradient
методов в энтропийно-регуляризованном обучении с подкреплением. В этом же контексте показывается схожесть между q-learning и natural policy gradient. Экспериментально рассматриваются несколько форм
обучения политик, использующие регуляризацию, и эквивалентность подтверждается. С помощью одной из форм представления q-функции оказывается возможным обучение без использования target network и epsilon-greedy выбора действий.
Регистрация на семинар по ссылке:
https://goo.gl/forms/n8ueMHhbv4nsIUm52Не забудьте зарегистрироваться до вечера сегодняшнего дня, если хотите прийти!