多模态AI (共16篇)

TC

微软推出三款新基础模型 强势挑战AI对手

微软AI部门(MAI)在成立仅六个月后,重磅发布三款全新基础模型。这些模型具备语音转录文本、音频生成以及图像生成功能,标志着微软在多模态AI领域的强势进军。面对OpenAI、Google等劲敌,微软此举旨在抢占AI基础设施高地,提升其在生成式AI市场的竞争力。模型支持实时处理和高效训练,预计将广泛应用于智能助理、内容创作等领域,推动AI应用落地。

微软AI 基础模型 多模态AI
197
ARS

Gemini 3.1 Flash Live首发:对话机器人难辨真伪

谷歌全新对话式音频AI Gemini 3.1 Flash Live今日上线搜索、Gemini应用及开发者工具。该模型以超低延迟实现自然语音交互,声音逼真度大幅提升,可能让用户难以分辨人与AI。继Gemini系列迭代后,此次Live版聚焦实时对话,挑战传统机器人检测机制。专家担忧隐私与真实性界限模糊,但也预示多模态AI新时代到来。(128字)

谷歌Gemini AI语音交互 机器人辨识
128
AIN

多模态AI革新金融:自动化复杂工作流

金融领袖正积极采用强大多模态AI框架,自动化复杂工作流。从非结构化文档提取文本一直是开发者痛点。传统OCR系统难以准确数字化复杂布局,常将多栏文件、图片和分层数据集转为乱码文本。新兴多模态AI通过整合视觉与语言模型,精准解析图像、表格和手写内容,大幅提升效率。金融行业正从中受益,加速从合同审核到风险评估的全流程自动化,推动数字化转型。(128字)

多模态AI 金融自动化 工作流优化
107
TC

Claude Code 语音模式上线,Anthropic 强势进军AI编程领域

Anthropic 近日推出 Claude Code 的语音模式功能,进一步强化其在 AI 编码领域的竞争力。这一创新允许开发者通过语音指令与 AI 协作编程,提升效率并降低门槛。语音模式支持实时对话式编码指导、代码审查和调试,标志着 AI 工具从文本向多模态交互演进。结合 Anthropic 的安全优先理念,此功能或将挑战 GitHub Copilot 和 Cursor 等竞品,推动编程范式变革。(128字)

Anthropic Claude Code 语音模式
353
ARS

谷歌发布Gemini 3.1 Pro:复杂问题解决能力大幅提升

谷歌近日宣布推出Gemini 3.1 Pro模型,宣称其专为‘最棘手挑战’设计,在复杂问题解决方面表现出色。该模型在长上下文理解、多步推理和多模态任务上实现突破,超越前代,支持更高效的工具调用和实时决策。谷歌强调,Gemini 3.1 Pro将助力科研、工程等领域应对高难度场景。随着AI竞赛加剧,此次升级凸显谷歌在推理能力上的领先布局。(128字)

谷歌Gemini AI模型 复杂推理
460
TC

谷歌Gemini应用新增音乐生成功能,支持文本图像视频输入

谷歌近日为Gemini应用注入音乐生成能力,用户可通过文本描述、图像或视频作为参考,轻松创作原创音乐。这项多模态功能标志着AI从文本到多媒体生成的全面进化,将极大提升用户创意表达。结合Gemini的强大模型,该功能支持多种音乐风格生成,并可实时调整,适用于音乐爱好者和专业创作者。未来,这或将重塑音乐创作生态,推动AI在娱乐行业的深度融合。(128字)

谷歌Gemini AI音乐生成 多模态AI
413
TC

印度AI实验室Sarvam新模型:开源AI可行性的重大押注

印度AI初创公司Sarvam推出全新模型阵容,包括30亿和105亿参数大语言模型、文本转语音模型、语音转文本模型,以及用于文档解析的视觉模型。这一发布标志着Sarvam对开源AI未来的坚定信心,在全球AI竞争中突出印度本土创新力量。这些模型针对印度多语言环境优化,支持印地语等本地语言,有望推动开源生态在新兴市场的快速发展。

Sarvam AI 开源模型 印度AI
636