В России разработали открытую виртуальную платформу для обучения искусственного интеллекта

Система XLand-MiniGrid обучает ИИ треллионам взаимодействий с окружением за лишь три дня.

На парковке в США в 2024 году автомобили Waymo ночью издавали звуковые сигналы друг другу. Жители близлежащих домов не были довольны этой ситуацией: автономные машины плохо реагировали на звуковые предупреждения, поэтому перекличка длилась долго. Для решения таких проблем требуется более гибкий ИИ.

ИТ-издания часто показывают развитие современного ИИ как непрерывную линию побед. На самом деле всё намного сложнее. Управление беспилотными автомобилями и дронами — это постоянная проблема: даже у ведущих компаний, таких как Waymo и Tesla, машины порой едут на красный свет или сигналят друг другу ночью. При этом автономный автомобиль практически не реагирует на звуковые сигналы, в отличие от пилотируемого.

Такие случаи не случайны и демонстрируют одну из проблем современного ИИ: эффективность работы при стандартных задачах обусловлена большим объемом тренировочных данных, но возникают сложности с редко встречающимися ситуациями, которые недостаточно освещены в тренировочной базе.

Конечно же, учёные стремятся противостоять подобным явлениям. Одним из инструментов служит обучение с подкреплением в контексте (In-Context Reinforcement Learning, или In-Context RL). Это сравнительно новое направление в ИИ: такой подход позволяет модели быстро приспосабливаться к новым задачам, опираясь на подсказки и контекст, без длительного обучения с самого начала.

Благодаря этому искусственный интеллект может эффективно взаимодействовать даже с очень сложной окружающей средой и обучаться на ходу. In-Context RL считается перспективным в таких областях, как персонализированные рекомендации для покупателей интернет-магазинов, управление роботами и автономными автомобилями. В самых разных случаях его используют там, где требуется практически мгновенная адаптация к новым условиям.

Для обучения искусственных интеллектов требуется особая виртуальная среда, цифровой полигон. Существующие среды можно разделить на две категории: хорошо разработанные, но закрытые для внешних пользователей, например, Google DeepMind, и открытые, но простые, предлагающие однообразные и легкие задачи для дообучения ИИ. На них достичь существенного прогресса сложно. Поэтому в лаборатории T-Bank AI Research решили создать собственную открытую виртуальную среду.

Появление нового направления в обучении с подкреплением требовало инструментов оценки. XLand-MiniGrid«,— подчеркнул учёный Вячеслав Синий из группы AI Alignment, которая входит в лабораторию исследований искусственного интеллекта T-Bank AI Research.

Новая виртуальная среда, описанная в научной статье, будет представлена на международной конференции NeurIPS 2024 в Ванкувере с 10 по 15 декабря. Прежде чем представить ее на конференции, её использовали в ряде исследований ученых. из крупных зарубежныхцентров, разрабатывающих искусственный интеллект.

Новая среда основана на JAX, технологии для создания высокопроизводительных программ. В связи с этим XLand-MiniGrid выполняет миллиарды операций в секунду, в отличие от медленных открытых аналогов.

XLand-MiniGrid дает возможность агентам выполнять до триллиона операций с окружением за три дня, ускоряя эксперименты и тестирование идей.

Там собрано 100 миллиардов примеров действий искусственного интеллекта в 30 тысячах задач. Благодаря этому разработчики могут использовать готовые наборы данных для обучения, а не собирать их каждый раз с начала. Такие особенности виртуальной среды для обучения ИИ упрощают исследования и новые открытия в этой области.

В отличие от имеющихся средств высокой сложности, XLand-MiniGrid доступна на платформе GitHub.