Google создала алгоритм TurboQuant: он сокращает потребление памяти ИИ в шесть раз

© gemini.google.com

© gemini.google.com

Если технология выйдет за пределы лабораторий, это может радикально снизить стоимость эксплуатации крупных языковых моделей.

Инженеры Google Research представили технологию TurboQuant – революционный метод сжатия памяти для систем искусственного интеллекта. Разработка оказалась настолько эффективной, что в сети ее мгновенно окрестили «Крысоловом» (Pied Piper) в честь легендарного стартапа из сериала «Кремниевая долина», чья программа умела уменьшать файлы практически без потери качества.

Главная ценность TurboQuant заключается в способности сократить объем «рабочей памяти» ИИ – так называемого кэша ключ-значение – как минимум в 6 раз. При этом нейросети не теряют в точности и производительности. Если технология выйдет за пределы лабораторий, это может радикально снизить стоимость эксплуатации крупных языковых моделей.

В индустрии новинку восприняли с большим энтузиазмом. Генеральный директор Cloudflare Мэтью Принс даже назвал это «моментом DeepSeek от Google». Он провел параллель с успехами китайских разработчиков, которые смогли обучить мощный ИИ за копейки на слабых чипах, доказав, что эффективность важнее грубой вычислительной силы.

Исследовательский центр Google описывает свою работу как новый способ «уменьшения объема рабочей памяти ИИ без ущерба для производительности». В основе метода лежит особая разновидность векторного квантования. Благодаря ей искусственный интеллект сможет запоминать больше данных, занимая при этом меньше физического пространства в памяти видеокарт.

Технические детали и научный дебют

Официальная презентация TurboQuant состоится на престижной конференции ICLR в апреле 2026 года. Ученые раскроют детали ключевых методов, сделавших этот прорыв возможным. Хотя математика данных процессов понятна лишь профильным специалистам, результат очевиден для всего рынка: ИИ становится «легче» и дешевле в обслуживании.

Несмотря на ажиотаж, эксперты призывают к сдержанности. На данный момент TurboQuant остается лабораторным достижением, и его еще предстоит внедрить в реальные продукты.

Кроме того, алгоритм решает проблему нехватки памяти только на этапе инференции (работы уже готовой модели), в то время как процесс обучения нейросетей по-прежнему требует колоссальных объемов оперативной памяти.