В России разработали метод быстрого сжатия больших языковых моделей без потери качества

Что случилось. Лаборатория исследования ИИ Yandex Research совместно с научно‑технологическими вузами разработала метод быстрого сжатия больших языковых моделей — LLM — без потери качества. Новый метод квантизации называется HIGGS — Hadamard Incoherence with Gaussian MSE‑optimal GridS.

Ранее для запуска языковой модели на смартфоне или ноутбуке нужно было провести ее квантизацию на сервере — это занимало от нескольких часов до нескольких недель. Метод HIGGS позволит выполнить квантизацию на телефоне или ноутбуке всего за несколько минут.

Например, с помощью нового метода можно сжимать такие большие модели, как DeepSeek‑R1 на 671 млрд параметров и Llama 4 Maverick на 400 млрд параметров, которые до сих пор удавалось квантовать только самыми простыми методами со значительной потерей в качестве.

Метод HIGGS доступен разработчикам и исследователям на Hugging Face и GitHub.

Что это значит для бизнеса. Метод HIGGS позволит быстро тестировать и внедрять новые решения на основе нейросетей, экономить время и деньги на разработку, говорят в Яндексе. Это делает LLM доступнее не только для крупных, но и для небольших компаний, некоммерческих лабораторий и институтов, индивидуальных разработчиков и исследователей. Например, стартапы смогут использовать сжатые модели для создания инновационных продуктов и сервисов.

Материалы по теме

1. Большие языковые модели для бизнеса: как создать умную базу знаний.

2. Пять скрытых сложностей на пути интеграции LLM в бизнес‑процессы.

3. Как искусственный интеллект помогает развиваться бизнесу.