Попытка номер 2
В этот четверг на семинаре выступлю я.
Начало в 19:00, аудитория Стенфорд, ШАД.
Не забудьте зарегистрироваться по ссылке до сегодняшней ночи , если хотите прийти:
https://docs.google.com/forms/d/e/1FAIpQLSd18PGkZuOqkWThJhmNxnmiSVFicnH4YwLVTCOkEkVQV6ZIDg/viewformРасскажу про Model Ensemble Trust Policy Optimization - немного не про ту статью, про которую планировал сначала.
https://arxiv.org/abs/1802.10592Авторы показывают эффективный способ борьбы с проблемой переобучения policy на восстановленную динамику модели в областях, где эта динамика работает плохо.
Авторы провели массивное сравнение предлагаемого метода с model-based и model-free бэйзлайнами.
Также, поскольку идея статьи весьма короткая, мы сможем разобрать все детали в деталях и, как бонус, разберёмся с давно не новым методом TRPO, который изнутри знаком не всем, а для именно этой статьи его понимание - большой плюс
Приходите, будет интересно