c
На этой неделе мы возобновляем еженедельное проведение семинаров группы.
Как обычно:
Четверг, ШАД
Аудитория: TBA
19:00
В этот четверг (31е января) на семинаре выступит Александр Орлов и расскажет про один из алгоритмов multiagent RL:
QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning
https://arxiv.org/abs/1803.11485
Авторы в статье предлагают компромиссное решение между классическим DQN, где все агенты объединены "единым мозгом" и обучением независимых Q функций под каждого агента с его ограниченными наблюдениями (Independent Q learning)
Предлагаемый подход позволяет разделять и учитывать как наблюдения среды, получаемые агентами, так и некоторое коллективное наблюдение "сверху".
Метод провалидировался на Старкрафте и показал эффективность по сравнению с конкурирующими подходами MARL. Показана также значимость отдельных кусков модели.