DeepMind создал искусственный интеллект, обыгравший людей в Quake III Arena

Нейросеть проходила обучение, обрабатывая данные из тысяч игровых сессий, что позволило ей сыграть приблизительно 450 000 матчей.

Сотрудники компании DeepMind, принадлежащей Google с 2014 года, опубликовали статью в журнале Science, в новой демонстрации они представили достижения своего искусственного интеллекта. На этот раз им удалось обучить алгоритм к совместной игре в режиме «Захват флага» в многопользовательской шутерной игре Quake III Arena. ИИ-агенты одержали победу над командой людей в большинстве матчей.

Специалисты применяли обучение с подкреплением для тренировки агентов – методе машинного обучения, основанном на взаимодействии системы с окружающей средой. В статье отмечается, что этот подход продемонстрировал свою эффективность при обучении отдельных агентов, однако авторов интересовала оценка его результативности в условиях командной работы.

Читайте также:  Умный гаджет Timeflip. Удобный тайм-трекер для повышения личной эффективности

Для организации взаимодействия была выбрана мультиплеерная игра в жанре шутера от первого лица Quake III Arena, однако были установлены определенные правила. Прежде всего, карты создаются случайным образом при каждом старте матча. Кроме того, в каждом матче участвуют только четыре игрока, по два человека с каждой стороны. Соревнование проводится исключительно в режиме «Захват флага», где команды должны одновременно оборонять свой флаг и пытаться захватить флаг противника, доставив его на свою базу. Время реакции системы было уменьшено до значений, соответствующих среднему показателю человека.

Авторы провели обучение 30 агентов. Этот процесс осуществлялся с помощью огромного количества параллельных партий, в которых участвовали агенты. Каждый агент функционировал как независимая сущность, принимающая решения на основе обучения с подкреплением. Специалисты также представили филогенетическое дерево, формирующееся в ходе обучения.

Читайте также:  The Boring Company начнет работу в Европе уже в этом месяце

Процесс обучения / ©Science

После тренировок алгоритмы провели несколько партий с командой людей. Обе команды играли на картах, которые были им незнакомы. В среднем, пара агентов захватывала на 16 флагов больше за игру, чем пара людей. Только в случае, когда человек играл в связке с искусственным интеллектом, он мог одержать победу над объединением алгоритмов (вероятность победы составляла 5).

Профессор Марк Ридл из Технологического колледжа Джорджии ( Mark Riedl) раскритиковал такой подход британской фирмы, сказав, что агенты не обмениваются сообщениями, а лишь реагируют на те события, которые происходят в игре. Однако представитель DeepMind Макс Джадерберг ( Max Jaderberg) возразил:

«[В нашей симуляции один из агентов находится в расположении врага и ждет повторного появления флага. Это возможно лишь благодаря поддержке товарища по команде».

Читайте также:  Разработана трехмерная модель сердечного желудочка

По мнению Джадерберга, одна из стратегий, разработанных искусственным интеллектом в процессе обучения, заключается в прогнозировании появления новых сигналов от противника. Подобную тактику применяют и люди.

В январе DeepMind заявила о разработке искусственного интеллекта AlphaStar одолел двух профессиональных игроков в стратегию StarCraft II, проходящую в реальном времени.