多模态AI (共15篇)

TC

Claude Code 语音模式上线,Anthropic 强势进军AI编程领域

Anthropic 近日推出 Claude Code 的语音模式功能,进一步强化其在 AI 编码领域的竞争力。这一创新允许开发者通过语音指令与 AI 协作编程,提升效率并降低门槛。语音模式支持实时对话式编码指导、代码审查和调试,标志着 AI 工具从文本向多模态交互演进。结合 Anthropic 的安全优先理念,此功能或将挑战 GitHub Copilot 和 Cursor 等竞品,推动编程范式变革。(128字)

Anthropic Claude Code 语音模式
240
ARS

谷歌发布Gemini 3.1 Pro:复杂问题解决能力大幅提升

谷歌近日宣布推出Gemini 3.1 Pro模型,宣称其专为‘最棘手挑战’设计,在复杂问题解决方面表现出色。该模型在长上下文理解、多步推理和多模态任务上实现突破,超越前代,支持更高效的工具调用和实时决策。谷歌强调,Gemini 3.1 Pro将助力科研、工程等领域应对高难度场景。随着AI竞赛加剧,此次升级凸显谷歌在推理能力上的领先布局。(128字)

谷歌Gemini AI模型 复杂推理
381
TC

谷歌Gemini应用新增音乐生成功能,支持文本图像视频输入

谷歌近日为Gemini应用注入音乐生成能力,用户可通过文本描述、图像或视频作为参考,轻松创作原创音乐。这项多模态功能标志着AI从文本到多媒体生成的全面进化,将极大提升用户创意表达。结合Gemini的强大模型,该功能支持多种音乐风格生成,并可实时调整,适用于音乐爱好者和专业创作者。未来,这或将重塑音乐创作生态,推动AI在娱乐行业的深度融合。(128字)

谷歌Gemini AI音乐生成 多模态AI
284
TC

印度AI实验室Sarvam新模型:开源AI可行性的重大押注

印度AI初创公司Sarvam推出全新模型阵容,包括30亿和105亿参数大语言模型、文本转语音模型、语音转文本模型,以及用于文档解析的视觉模型。这一发布标志着Sarvam对开源AI未来的坚定信心,在全球AI竞争中突出印度本土创新力量。这些模型针对印度多语言环境优化,支持印地语等本地语言,有望推动开源生态在新兴市场的快速发展。

Sarvam AI 开源模型 印度AI
447