Новый способ сжатия больших языковых моделей создан учеными из Яндекса, НИУ ВШЭ, MIT, KAUST и ISTA.

С помощью метода HIGGS возможно быстро тестировать нейросети и применять решения на основе их сжатых версий, что экономит время и средства. Например, компания «Яндекс» использует этот метод для ускорения прототипирования.

© May James, Keystone Press Agency

Яndex Research совместно с учеными из ВШЭ, MIT, КУАиТ и австрийского института науки и технологий разработали способ сжатия больших языковых моделей для работы на обычных устройствах — смартфонах и ноутбуках.
Происходит это за считанные минуты без потери качества. Благодаря этому передовые ИИ-технологии становятся доступны малым компаниям, стартапам и независимым разработчикам, у которых нет возможности покупать дорогие серверы и мощные графические процессоры.

Работа с LLM затруднена из-за больших вычислительных ресурсов, необходимых для их функционирования. Даже публично доступные модели, например китайская DeepSeek-R1, не умещаются на обычных серверах для машинного обучения и ИИ. Несмотря на открытый доступ к моделям, использование остаётся ограниченным.

Новый метод квантизации HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS) разрешает проблему сжатия моделей: позволяет сжимать модели, сохраняя качество и не нуждаясь в дополнительных данных. Теперь квантизацию можно проводить на мобильном устройстве за минуты вместо нескольких часов или недель.

Новый метод квантизации HIGGS показал лучшие результаты на языковых моделях Llama 3 и Qwen2.5 по сравнению с NF4 и HQQ.

Исследование о достижении «Яндекса», НИУ ВШЭ, MIT, KAUST и ISTA представят на конференции The North American Chapter of the Association for Computational Linguistics. Конференция пройдет с 29 апреля по 4 мая 2025 года в Альбукерке (США).

Статья уже опубликована на сервере препринтов arXiv.org, а сам метод HIGGS доступен на Hugging Face и GitHub.