Про Dota 2 и OpenAIИИ OpenAI недавно победил профессиональную команду игроков в Dota 2. Сейчас они захостили эксперимент, где предлагают всем желающим поиграть с этим ИИ. Эксперимент закончится ночью с воскресенья на понедельник по Московскому времени. Если кто-то хочет поиграть, то вам сюда:
https://arena.openai.com/- Они делают свой стрим, где показывают некоторые из игр ИИ:
https://www.twitch.tv/openai- Лидерборд, где можно посмотреть лучшие результаты людей
https://arena.openai.com/resultsНа данный момент ИИ наиграл уже 12400 игр с людьми, ИИ выигрывает в 99.3% случаев.
- Запись стрима игрока, который несколько раз уже победил OpenAI:
https://www.twitch.tv/videos/413471944Они научились выигрывать просто убегая от ИИ, постепенно вынося их базу. ИИ при этом непрерывно за ними бегает, а поймать не может.
- По поводу запуска арены есть блогпост в блоге OpenAI:
https://openai.com/blog/how-to-train-your-openai-five/- Есть AMA (Ask me anything) на Reddit:
https://www.reddit.com/r/DotA2/comments/bf49yk/hello_were_the_dev_team_behind_openai_five_we/Некоторые комментарии от меня- Цель эксперимента — понять, возможно ли проэксплуатировать данный ИИ и научиться всегда выигрывать.
Их предыдущий 1vs1 ИИ проигрывал людям, так как те нашли несколько стратегий абуза ИИ. AlphaStar от DeepMind так же была успешно проэксплуатирована человеком в лайв-игре. Стратегия с убеганием — это тоже абуз, человек бы что-то на такое придумал по ходу игры.
- Агенты ИИ общаются между собой сообщениями из некоторого конечного набора в чате.
На стриме от OpenAI можно заметить сообщения в чате: "Я играю в поддержку и иду покупать предметы", "Я буду сейчас главным, все за мной".
Про алгоритмы, как со стороны человека, который в этом немного шарит- Очень простой алгоритм PPO показывает себя намного лучше, чем какие-то более сложные, типа иерархического RL. Они показали, что выгоднее было увеличить число параметров в 100 или 1000 раз, чем использовать более сложный алгоритм.
- OpenAI пришлось создать систему распределённого RL, которая называется Rapid. При помощи данной системы уже был обучен другой агент управления роботизированной рукой. Подробнее тут:
https://openai.com/blog/learning-dexterity/- Им пришлось научиться, как говорят исследователи, выполнять хирургию над весами сети: вручную вставлять веса одной сети в другую.
Этот процесс был очень неприятный и несколько раз всё ломалось и ИИ начинал действовать очень странно.
- Обучение агента заняло примерно 10 месяцев.
Суммарно это занимает 800 петафлопс-дней тренировки. Стоимость обучения — приблизительно $110тыс долларов. Во время этого обучения, ИИ играет примерно 45 тысяч лет непрерывной игры в Dota 2.
Я очень жду статью как от DeepMind про AlphaStar, так и про OpenAI Five.