Благодаря новым технологиям стало возможным оперативно тестировать нейронные сети и использовать их оптимизированные версии для реализации проектов, что позволяет сократить временные и финансовые затраты. Так, компания «Яндекс» уже использует методику HIGGS для ускорения разработки прототипов.
Специалисты Лаборатории исследований ИИ Yandex Research совместно с учеными из Национального исследовательского университета «Высшая школа экономики», Массачусетского технологического института, Научно-технологического университета имени короля Абдаллы в Саудовской Аравии и Австрийского института науки и технологий разработали инновационный способ сжатия больших языковых моделей (LLM), обеспечивающий их работу на обычных устройствах, таких как смартфоны и ноутбуки. Процесс занимает всего несколько минут и позволяет сохранить исходное качество. Это делает передовые ИИ-технологии доступными для небольших компаний, стартапов и независимых разработчиков, которые не располагают ресурсами для приобретения дорогостоящих серверов и высокопроизводительных графических ускорителей.
Ключевая проблема при работе с большими языковыми моделями – значительные требования к вычислительным ресурсам. Даже открытые модели, например, DeepSeek-R1, разработанная в Китае, не могут быть запущены на обычных серверах, предназначенных для машинного обучения и искусственного интеллекта. Несмотря на то, что эти модели находятся в открытом доступе, их использование было ограничено.
Новый метод квантизации, названный HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS), решает указанную проблему: он позволяет сжимать модели без потери качества и без необходимости использования дополнительных данных. Теперь процесс квантизации, или сжатия модели, может быть выполнен на мобильном устройстве всего за несколько минут, в то время как ранее на это уходило от нескольких часов до нескольких недель.
Новый метод квантизации HIGGS был проверен на широко используемых языковых моделях Llama 3 и Qwen2.5. Полученные данные свидетельствуют о том, что он демонстрирует лучшие показатели в соотношении качества и размера модели по сравнению с предыдущими разработками – NF4 и HQQ.
На конференции The North American Chapter of the Association for Computational Linguistics, которая состоится с 29 апреля по 4 мая 2025 года в Альбукерке (США), будет представлена работа, созданная при участии специалистов из «Яндекса», НИУ ВШЭ, MIT, KAUST и ISTA).
Статья уже опубликована на сервере препринтов arXiv.org, а сам метод HIGGS доступен на Hugging Face и GitHub.