Система XLand-MiniGrid обучает ИИ треллионам взаимодействий с окружением за лишь три дня.

ИТ-издания часто показывают развитие современного ИИ как непрерывную линию побед. На самом деле всё намного сложнее. Управление беспилотными автомобилями и дронами — это постоянная проблема: даже у ведущих компаний, таких как Waymo и Tesla, машины порой едут на красный свет или сигналят друг другу ночью. При этом автономный автомобиль практически не реагирует на звуковые сигналы, в отличие от пилотируемого.
Такие случаи не случайны и демонстрируют одну из проблем современного ИИ: эффективность работы при стандартных задачах обусловлена большим объемом тренировочных данных, но возникают сложности с редко встречающимися ситуациями, которые недостаточно освещены в тренировочной базе.
Конечно же, учёные стремятся противостоять подобным явлениям. Одним из инструментов служит обучение с подкреплением в контексте (In-Context Reinforcement Learning, или In-Context RL). Это сравнительно новое направление в ИИ: такой подход позволяет модели быстро приспосабливаться к новым задачам, опираясь на подсказки и контекст, без длительного обучения с самого начала.
Благодаря этому искусственный интеллект может эффективно взаимодействовать даже с очень сложной окружающей средой и обучаться на ходу. In-Context RL считается перспективным в таких областях, как персонализированные рекомендации для покупателей интернет-магазинов, управление роботами и автономными автомобилями. В самых разных случаях его используют там, где требуется практически мгновенная адаптация к новым условиям.
Для обучения искусственных интеллектов требуется особая виртуальная среда, цифровой полигон. Существующие среды можно разделить на две категории: хорошо разработанные, но закрытые для внешних пользователей, например, Google DeepMind, и открытые, но простые, предлагающие однообразные и легкие задачи для дообучения ИИ. На них достичь существенного прогресса сложно. Поэтому в лаборатории T-Bank AI Research решили создать собственную открытую виртуальную среду.
Появление нового направления в обучении с подкреплением требовало инструментов оценки. XLand-MiniGrid«,— подчеркнул учёный Вячеслав Синий из группы AI Alignment, которая входит в лабораторию исследований искусственного интеллекта T-Bank AI Research.
Новая виртуальная среда, описанная в научной статье, будет представлена на международной конференции NeurIPS 2024 в Ванкувере с 10 по 15 декабря. Прежде чем представить ее на конференции, её использовали в ряде исследований ученых. из крупных зарубежныхцентров, разрабатывающих искусственный интеллект.
Новая среда основана на JAX, технологии для создания высокопроизводительных программ. В связи с этим XLand-MiniGrid выполняет миллиарды операций в секунду, в отличие от медленных открытых аналогов.

Там собрано 100 миллиардов примеров действий искусственного интеллекта в 30 тысячах задач. Благодаря этому разработчики могут использовать готовые наборы данных для обучения, а не собирать их каждый раз с начала. Такие особенности виртуальной среды для обучения ИИ упрощают исследования и новые открытия в этой области.
В отличие от имеющихся средств высокой сложности, XLand-MiniGrid доступна на платформе GitHub.