图像生成 (共17篇)

ARS

谷歌发布Nano Banana 2 AI图像模型,今天即登陆Gemini

谷歌近日揭晓全新AI图像生成模型Nano Banana 2,该模型将立即取代此前版本,并于今日集成至Gemini应用中。Nano Banana 2在图像质量、生成速度和多模态理解上实现重大突破,支持更高分辨率输出和复杂提示响应。作为谷歌AI生态的重要升级,此举将进一步提升Gemini的用户体验,推动AI图像生成向更高效、更普适方向发展。业内人士预计,这将加剧与OpenAI DALL·E和Stability AI的竞争。

谷歌AI Nano Banana 2 Gemini
193
TC

谷歌推出Nano Banana 2模型:图像生成速度革命性提升

谷歌近日宣布推出Nano Banana 2图像生成模型,并将其设置为Gemini应用和AI模式的默认模型。该模型在图像生成速度上大幅提升,支持更快的实时创作体验。相比前代,Nano Banana 2优化了神经网络架构,减少了计算延迟,适用于移动端和网页环境。这标志着谷歌在AI多模态生成领域的又一突破,将进一步推动Gemini生态的普及。业内人士认为,此举将加剧与OpenAI、Midjourney等竞争对手的角逐。(128字)

谷歌 Nano Banana 2 图像生成
178

Flux.1 训练全解析:高效图像生成模型的诞生

MLCommons 发布的《Training Flux.1》报告详解了 Black Forest Labs 的 Flux.1 模型训练过程。该模型采用 12B 参数的 DiT 架构,在海量高质量数据集上训练,支持文本到图像生成,性能媲美 Midjourney 和 DALL·E 3。报告强调了高效的分布式训练策略、LoRA 微调和 FP8 量化技术,训练成本控制在合理范围内。Flux.1 [dev] 和 [schnell] 版本分别针对研究和快速推理优化,在 MS COCO 等基准上表现出色,Elo Rating 高达 1200+。本文改写保留关键数据,为 AI 从业者提供宝贵洞见。(128 字)

MLC Flux.1 模型训练
524

SGLang Diffusion:加速视频与图像生成

SGLang Diffusion 将 SGLang 的顶尖性能扩展至扩散模型的图像和视频生成,支持主流开源模型如 Wan、Hunyuan、Qwen-Image、Qwen-Image-Edit 和 Flux。通过 OpenAI 兼容 API、CLI 和 Python 接口,提供 1.2x 至 5.9x 的加速效果。与 FastVideo 团队合作,构建从训练到生产的全生态。架构采用 ComposedPipelineBase 和高级并行技术(如 USP、CFG-parallelism),确保高效灵活。基准测试显示,在 H100/H200 GPU 上显著优于 Hugging Face Diffusers。未来将打造端到端扩散生态。(128字)

LMSYS SGLang Diffusion 扩散模型
515