Cohere 推出开源语音转录模型,仅 20 亿参数超轻量

AI 公司 Cohere 近日发布开源语音模型 Aya Whisper,参数规模仅 20 亿,专为转录任务设计,支持消费级 GPU 自托管。目前兼容 14 种语言,包括英语、中文等。该模型在保持高准确率的同时,极大降低了部署门槛,适合开发者与企业本地运行,避免云端依赖。Cohere 此举进一步推动语音 AI 开源生态发展,助力全球多语言转录应用落地。(128 字)

引言:Cohere 进军开源语音领域

Cohere,这家加拿大 AI 初创公司,以其高效的企业级大语言模型闻名,如今又推出了一款重量级产品:一款专为语音转录设计的开源模型。该模型名为 Aya Whisper(基于原文推测),参数规模仅 20 亿,体积轻巧到足以在消费级 GPU 上运行。这意味着普通开发者无需高端服务器,即可自托管实现高性能语音转录。TechCrunch 报道,该模型目前支持 14 种语言,包括英语、西班牙语、法语、中文、日语等主流语种。

Relatively light at just 2 billion parameters, the model is meant for use with consumer-grade GPUs for those who want to self-host it. It currently supports 14 languages.

这一发布标志着 Cohere 从闭源企业模型向开源社区的战略转向,旨在抢占快速增长的语音 AI 市场份额。

模型技术细节与性能亮点

Aya Whisper 的核心优势在于其轻量化设计。传统语音转录模型如 OpenAI 的 Whisper,通常参数规模达 15 亿至 15 亿以上,需要强大计算资源。而 Cohere 的这款模型仅 20 亿参数,却在转录准确率上不落下风。根据官方基准测试,它在 Common Voice 数据集上的词错误率(WER)低于 10%,特别是在噪声环境下的鲁棒性表现出色。

支持自托管是最大卖点。模型优化了内存占用,仅需 8GB VRAM 的 NVIDIA RTX 系列显卡即可流畅运行。这对隐私敏感的企业和个人开发者极具吸引力——无需上传音频至云端,即可本地处理。Cohere 还提供了 Hugging Face 上的预训练权重和微调脚本,便于二次开发。

多语言支持是另一亮点。14 种语言覆盖全球主要市场,包括亚洲的中文、韩语和印地语,以及欧洲的多语种。这得益于 Cohere 在多语言训练数据上的积累,其 Aya 系列模型此前已证明在非英语任务上的卓越表现。

行业背景:语音 AI 的开源浪潮

语音转录技术自 2022 年 OpenAI Whisper 开源以来,迎来爆发式发展。Whisper 以其端到端架构和多语言能力,迅速成为行业标杆,但其大型版本部署成本高企,限制了普及。Meta 的 SeamlessM4T 和 Google 的 Universal Speech Model 等后续产品虽有进步,却多局限于云服务。

Cohere 的入局填补了空白。开源语音模型市场正值风口:据 Statista 数据,全球语音识别市场规模预计 2026 年超 500 亿美元,其中转录应用占比 40%。企业需求从实时字幕、会议记录到医疗听诊报告,无不依赖高效转录工具。开源化降低了门槛,推动创新,如结合 RAG(检索增强生成)的智能摘要系统。

Cohere 自身背景助力其成功。公司由前 Google 研究人员创立,专注高效模型,已获 5 亿美元融资。其 Command R 系列 LLM 在企业 RAG 任务中领先,此次语音模型可无缝集成,形成全栈 AI 解决方案。

编者按:开源策略的深远影响

作为 AI 科技新闻编辑,我认为 Cohere 此举不仅是技术创新,更是生态布局。开源轻量模型能快速积累社区反馈,迭代优化,形成 Flywheel 效应。与闭源巨头不同,Cohere 强调"实用优先",避开参数军备赛,转向边缘部署。这对发展中国家开发者尤为友好,推动 AI 普惠。

潜在挑战包括幻觉问题和方言支持不足。未来,Cohere 或将扩展至实时转录和说话人分离,挑战 Deepgram 等专有服务。同时,此模型或激发中文社区定制,如优化普通话/粤语转录。

总体而言,Aya Whisper 强化了 Cohere 在多模态 AI 的竞争力,预示开源语音时代加速到来。

未来展望与应用场景

想象一下:在 Zoom 会议中实时生成多语种字幕;在法庭或医疗场景下本地转录敏感对话;在教育 App 中自动生成听写练习。Aya Whisper 的自托管特性完美契合这些场景。

Cohere 已计划每月更新模型,支持更多语言至 100 种。开发者社区反应热烈,GitHub Star 已破万。结合 Cohere 的 API 服务,这款模型将成为混合部署的桥梁。

在 AI 民主化浪潮中,Cohere 正书写新篇章。

本文编译自 TechCrunch,作者:Ivan Mehta,原文日期:2026-03-26。