XLand-MiniGrid – это разработка, позволяющая ИИ, проходящему обучение, совершать триллион взаимодействий с обучающей средой всего за три дня.
Несмотря на то, что средства массовой информации часто изображают развитие современного искусственного интеллекта как последовательный успех, ситуация на деле оказывается гораздо более неоднозначной. Управление беспилотными автомобилями и летательными аппаратами до сих пор представляет собой сложную задачу: даже ведущие компании в этой сфере, такие как Waymo и Tesla, сталкиваются с ситуациями, когда их автомобили иногда нарушают правила дорожного движения, например, проезжают на красный свет или подают сигналы друг другу в ночное время, что связано с тем, что автономный автомобиль, в отличие от управляемого человеком, практически не реагирует на звуковые сигналы.
Эти случаи не являются случайностью, а свидетельствуют об одной из проблем современных систем искусственного интеллекта: они демонстрируют высокую эффективность в задачах, для которых были специально подготовлены, благодаря обучению на обширных наборах данных, однако часто оказываются неспособны справиться с нестандартными и сложными ситуациями, которые лишь незначительно или вовсе отсутствуют в данных, используемых для обучения.
Безусловно, исследователи стремятся противодействовать подобным явлениям. Одним из инструментов является контекстное обучение с подкреплением (In-context Reinforcement Learning, или In-Context RL). Это относительно новое направление в области искусственного интеллекта, которое позволяет моделям оперативно приспосабливаться к новым задачам, используя подсказки и контекст, минуя длительный процесс обучения с нуля.
Благодаря искусственному интеллекту возможно взаимодействие даже со сложной средой и непрерывное совершенствование в процессе работы. In-Context RL представляется многообещающим решением для таких сфер, как формирование индивидуальных рекомендаций для пользователей онлайн-магазинов, управление робототехникой и беспилотными автомобилями. Это делает его особенно ценным в ситуациях, когда необходима быстрая адаптация к совершенно новым условиям.
Для обучения подобных искусственных интеллектов требуется специализированная виртуальная среда, своего рода цифровой полигон. Существующие среды такого рода можно разделить на две группы. Некоторые из них хорошо проработаны, например, Google DeepMind, но они являются внутрикорпоративными, то есть недоступны для сторонних пользователей. Другие среды открыты, однако они относительно просты и предлагают для дообучения ИИ лишь однообразные и несложные задачи. Достичь значительных улучшений на их основе затруднительно. Поэтому в лаборатории T-Bank AI Research приняли решение о создании собственной открытой виртуальной среды.
«Мы начали работать в сфере обучения с подкреплением на раннем этапе её развития и столкнулись с отсутствием инструментов для оценки инновационных идей. Стало очевидно, что эта проблема актуальна для многих экспертов и требует первоочередного решения. В связи с этим возник XLand-MiniGrid», — подчеркнул ученый Вячеслав Синий, представляющий научную группу AI Alignment, которая является частью лаборатории исследований искусственного интеллекта T-Bank AI Research.
Научная работа, посвященная новой виртуальной среде, была одобрена для представления на престижной международной конференции по искусственному интеллекту NeurIPS 2024. Конференция пройдет с 10 по 15 декабря в Ванкувере, Канада. Однако, виртуальная среда уже нашла применение в нескольких научных исследованиях из крупных зарубежных центров, разрабатывающих искусственный интеллект.
XLand-MiniGrid разработан на основе JAX, платформы для создания высокопроизводительных программных решений. Благодаря этому, по сравнению с другими открытыми технологиями, работающими с меньшей скоростью, он способен выполнять миллиарды операций в секунду.
В виртуальной среде аккумулировано 100 миллиардов образцов действий ИИ, охватывающих 30 тысяч задач. Это позволяет разработчикам применять готовые наборы данных для обучения, избегая необходимости их создания с нуля. Подобные характеристики среды, предназначенной для обучения ИИ, облегчают исследования и способствуют новым открытиям в этой сфере.
В отличие от других аналогичных сред, характеризующихся высокой сложностью, XLand-MiniGrid доступна всем желающим и размещена на платформе GitHub.