Узкое про ИИ. Одна из проблем создания алгоритмов Reinforcement Learning — скудность симуляционного окружения, используемого в большинстве работ. Симуляции, в отличие от естественного окружения и данных из реального мира, характеризуются повторяемыми условиями с минимальными отклонениями (вспомните хотя бы игры Atari, часто используемые в качестве бенчмарка). В результате, алгоритм обладает маленькой гибкостью. Стоит вам слегка поменять правила работы блоков в игре Марио, как алгоритм перестает работать.
Исследователи из Facebook показывают, как можно использовать данные из реального мира в комбинации с RL. В своей работе они приводят три подхода для создания бенчмарков:
— Навигация агента для классификации изображений (с использованием популярных датасетов вроде MNIST, CIFAR10 и CIFAT100.
— Навигация агента для локализации объектов (с использованием датасета Cityscapes).
— Интеграция естественных видео в существующие RL-бенчмарки (на базе задач для OpenAI gym).
Первые два подхода показывают, что используемые сегодня подходы в RL плохо подходят для задач распознавания реальных изображений. Третье семейство бенчмарков также показывает, что применяемые в RL алгоритмы существенно падают в эффективности при добавлении естественного видео-ряда.
Авторы надеются, что новые типы бенчмарков приведут к созданию новых алгоритмов с использованием обучения с подкреплением.
https://arxiv.org/pdf/1811.06032.pdf