Революционный метод сжатия языковых моделей: как "Яндекс" и ученые из НИУ ВШЭ и MIT упростили использование нейросетей

Сотрудники компании "Яндекс" в сотрудничестве с учеными из НИУ ВШЭ, MIT, KAUST и ISTA разработали метод сжатия языковых моделей, который позволяет значительно улучшить их производительность, не теряя качества. Новая технология, получившая название HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS), делает возможным запуск сложных нейросетей на обычных устройствах, таких как ноутбуки и смартфоны, без необходимости использования дорогих серверов с мощными графическими процессорами. Ранее, для работы с большими языковыми моделями требовалась квантизация на специализированных серверах, что занимало от нескольких часов до недель, но с HIGGS этот процесс теперь можно завершить всего за несколько минут, даже на устройствах с ограниченными вычислительными возможностями.

Важнейшим аспектом метода является его способность эффективно работать с гигантскими моделями, такими как DeepSeek-R1 с 671 миллиардом параметров и Llama 4 Maverick с 400 миллиардов параметров. Эти модели, которые ранее не помещались на специализированных AI-серверах, теперь можно использовать на более доступных устройствах. Эксперименты, проведенные в рамках исследования, показали, что технология HIGGS значительно превосходит существующие методы квантизации, такие как NF4 и HQQ, по соотношению качества и размера модели. Учёные подтвердили, что новая методика сжатия обеспечивала отличные результаты при применении к моделям Llama 3 и Qwen2.5.

Особенностью HIGGS является отсутствие необходимости в дополнительных данных для обучения и в сложной оптимизации параметров, что значительно упрощает процесс работы с нейросетями. Этот прогресс открывает новые возможности для использования языковых моделей на устройствах с ограниченными вычислительными ресурсами, снижая требования к аппаратному обеспечению и делая передовые нейросетевые технологии более доступными для широкого круга пользователей.