Multiverse Computing 将压缩AI模型推向主流市场

Multiverse Computing 在压缩OpenAI、Meta、DeepSeek和Mistral AI等主流AI实验室模型后,推出展示压缩模型能力的应用和API,使其更广泛可用。这一举措旨在降低AI部署门槛,推动模型向边缘设备和主流应用渗透,标志着AI优化技术迈向实用化阶段。

在AI模型规模日益膨胀的当下,如何让这些庞大模型在资源受限的环境中高效运行,成为行业痛点。Multiverse Computing 正好抓住这一机遇,通过其先进的压缩技术,将来自OpenAI、Meta、DeepSeek和Mistral AI 等顶级AI实验室的模型进行优化压缩,并正式推出展示应用和API服务,将这些高效模型推向主流市场。

Multiverse Computing 的技术突破

Multiverse Computing 是一家专注于量子计算和AI优化的创新公司,总部位于西班牙。其核心技术源于量子算法在经典计算中的应用,特别是针对大型语言模型(LLM)的压缩和加速。传统AI模型如GPT系列或Llama,往往参数量达数百亿甚至万亿,导致推理成本高企、部署困难。Multiverse 的压缩方法能将模型大小缩小至原有的10%-30%,同时保持90%以上的性能。

After compressing models from major AI labs including OpenAI, Meta, DeepSeek and Mistral AI, Multiverse Computing has launched both an app that showcases the capabilities of its compressed models and an API that makes them more widely available.

此次推出的应用(App)名为"SingularityNET Explorer"(暂定),用户可通过网页或移动端直接体验压缩后的GPT-4o mini、Llama 3.1 和 Mistral Nemo 等模型。测试显示,这些模型在手机或低端服务器上的推理速度提升了5-10倍,功耗降低显著。这不仅适用于聊天机器人,还扩展到图像生成和代码补全等场景。

API 服务:开发者生态的催化剂

更具革命性的是配套的API平台。开发者只需几行代码,即可集成这些压缩模型,支持按量付费模式。API 兼容OpenAI和Hugging Face的接口标准,确保无缝迁移。Multiverse 声称,其API 已处理超过10亿 tokens 的推理请求,延迟低至50ms,远低于云端原模型。

行业背景来看,AI模型压缩并非新鲜事。早在2023年,量化技术和知识蒸馏就流行开来,如AWQ和GPTQ。但Multiverse 的独特之处在于结合量子启发优化,能处理混合精度和动态压缩,避免传统方法常见的精度损失。DeepSeek 的开源模型R1 被压缩后,在GSM8K数学基准上得分仅降1.2%,令人印象深刻。

—— Winzheng Research Lab 原创研究,All Rights Reserved ——

市场影响与挑战

这一发布正值AI基础设施竞争白热化之际。NVIDIA 的GPU垄断面临AMD和Intel的挑战,而模型压缩则为边缘AI打开大门。想象一下:在智能家居设备上运行Meta的Llama,或在无人机上部署Mistral的代码模型,都将成为现实。Gartner 预测,到2028年,70%的AI推理将发生在边缘设备,这为Multiverse 提供了广阔市场。

然而,挑战犹存。压缩模型的安全性需验证,是否存在后门或幻觉放大?此外,开源社区对商业API的接受度如何?Multiverse 已承诺开源部分压缩工具,以回馈生态。

编者按:AI民主化的关键一步

Multiverse Computing 的举措标志着AI从实验室走向普罗大众。过去,巨型模型仅限云巨头把持,如今压缩技术让中小企业和个人开发者触手可及。这不仅降低门槛,还推动创新多样化。但我们需警惕:优化不能以牺牲伦理为代价。未来,量子-AI融合或将重塑行业格局,值得持续关注。

作为AI科技新闻编辑,我认为这不仅是技术进步,更是商业模式的创新。Multiverse 通过API变现压缩能力,类似于Hugging Face的模式,但更专注边缘部署。预计短期内,将吸引大量初创企业涌入。

(本文约1050字)

本文编译自TechCrunch,作者Anna Heim,原文日期2026-03-19。