Компания Microsoft анонсировала чип Maia 200 второго поколения, разработанный собственными силами, который предназначен для осуществления логических заключений в системах искусственного интеллекта. Это происходит в условиях усиливающейся борьбы за снижение затрат на работу больших языковых моделей, которые становятся существенной статьей расходов для организаций, занимающихся разработкой ИИ, по мере увеличения числа пользователей чат-ботов и виртуальных помощников до миллионов. В отличие от предыдущих аппаратных решений, ориентированных на обучение моделей, Maia 200 разработан специально для инференса – непрерывного процесса генерации ответов ИИ, который требует высокой скорости, надежности и экономичности.
На этой неделе новый чип будет запущен в дата-центре Microsoft, расположенном в Айове, а последующее внедрение запланировано в штате Аризона. Maia 200, представляющий собой усовершенствованную версию модели Maia 100, выпущенной в 2023 году, включает в себя более 100 миллиардов транзисторов и демонстрирует производительность, превышающую 10 петафлопсов при использовании 4-битной точности. При 8-битной точности этот показатель достигает примерно 5 петафлопсов. Указанные характеристики отражают результаты, полученные при работе с реальными задачами, а не в ходе тестирования с использованием стандартных тестов. По словам представителей компании, один узел, оснащенный чипом Maia 200, способен поддерживать запуск самых крупных современных ИИ-моделей и обеспечивает ресурсы для их дальнейшего развития.
Архитектура чипа разработана с учетом принципов, лежащих в основе современных ИИ-сервисов. Чтобы обеспечить оперативную работу даже при пиковых нагрузках, Maia 200 обладает значительным объемом SRAM – высокоскоростной памяти, которая минимизирует задержки при обработке повторяющихся запросов. Некоторые новые компании, производящие ИИ-чипы, применяют подобную технологию для повышения скорости отклика систем при увеличении их масштаба.
Выпуск Maia 200 также имеет важное стратегическое значение, поскольку ведущие поставщики облачных услуг стремятся уменьшить свою зависимость от NVIDIA, чьи графические процессоры (GPU) занимают лидирующие позиции в сфере ИИ-инфраструктуры. Microsoft теперь присоединяется к Google, использующему тензорные процессоры (TPU), и Amazon Web Services, предлагающему чипы Trainium и Inferentia. В качестве прямого сравнения с продуктами конкурентов, Microsoft заявляет, что Maia 200 показывает трехкратное увеличение производительности FP4 по сравнению с чипами Trainium третьего поколения от Amazon, а также превосходит по производительности FP8 последние TPU от Google.
Процессор Maia 200, как и грядущие чипы Vera Rubin от NVIDIA, изготовлен Taiwan Semiconductor Manufacturing Co с использованием 5-нанометрового техпроцесса и оснащен высокоскоростной памятью, хотя и предыдущего поколения относительно самых современных решений NVIDIA.
Вместе с новым чипом Microsoft анонсировала инструменты для разработчиков, чтобы уменьшить отставание в программном обеспечении, которое ранее было сильной стороной NVIDIA. Центральным элементом стал открытый фреймворк Triton, облегчающий создание эффективного кода для искусственного интеллекта, разработке которого внесла значительный вклад OpenAI. Microsoft представляет Triton как альтернативу CUDA, основной платформе программирования от NVIDIA.
Maia 200 уже находит применение в собственных ИИ-сервисах Microsoft, обеспечивая работу моделей, разрабатываемых командой Superintelligence, и поддерживая Copilot. Помимо этого, компания предоставила возможность сторонним разработчикам, научным исследователям и передовым ИИ-лабораториям опробовать комплект разработки программного обеспечения (SDK) для Maia 200. Этот запуск демонстрирует значительную эволюцию в ИИ-инфраструктуре Microsoft, где управление программным обеспечением и его развертывание приобрели не меньшее значение, чем производительность самих чипов.