赢政天下 - 全球AI模型与硬核评测和深度技术洞察

SGLang 中的 EPD 解耦：视觉语言模型弹性编码器扩展

SGLang 引入 Encoder-Prefill-Decode (EPD) 解耦架构，将视觉语言模型 (VLMs) 中的视觉编码与语言处理分离，实现视觉编码容量的独立水平扩展，提升资源利用率。该方案兼容现有的 Prefill-Decode (PD) 解耦，形成三层架构，支持多种传输后端和视觉嵌入缓存。在图像密集场景下，EPD 显著降低 TTFT（首 Token 时间），负载下比同置部署低 6–8 倍；吞吐量提升约 2 倍。但图像稀疏场景可能引入额外网络延迟。基准测试基于 Qwen3-VL-235B，在 8 张 H20 GPU 上验证其在多图像请求中的优势。（128 字）

单H200部署1TB模型：INT4 QAT RL端到端实践

受Kimi K2团队启发，SGLang RL团队成功实现INT4 Quantization-Aware Training (QAT)全流程。通过训练阶段的fake quantization和推理阶段的真实W4A16量化，实现了与BF16全精度相当的稳定性和训推一致性。极致INT4压缩让约1TB规模模型单节点H200（141GB）部署，避免跨节点通信瓶颈，大幅提升部署效率。本文详解开源生态下完整pipeline的技术细节，提供高性能低成本的实用参考。项目由SGLang RL、InfiXAI、蚂蚁集团Asystem & AQ Infra、slime和RadixArk团队联合完成，已同步至slime和Miles社区。（128字）

SGLang优化GLM4-MoE生产部署：TTFT提升65%

Novita AI针对基于SGLang的GLM4-MoE模型开发了一系列生产验证的高效优化策略，涵盖从内核执行到跨节点数据传输的整个推理管道。通过Shared Experts Fusion和Suffix Decoding等技术，在代理编码工作负载下实现了TTFT降低高达65%、TPOT提升22%的显著性能提升。这些优化已在H200集群的TP8和FP8配置上验证，提供高吞吐量与低延迟的生产蓝图。基准测试显示，在输入长度4096、输出1000的场景下，请求率达14 req/s时效果显著。所有优化已部分上游合并，并开源复现脚本。

SGLang 中的 EPD 解耦：视觉语言模型弹性编码器扩展

单H200部署1TB模型：INT4 QAT RL端到端实践

SGLang优化GLM4-MoE生产部署：TTFT提升65%

Firefox即将一键禁用所有AI功能：Mozilla宣布在浏览器设置中添加“阻塞AI开关”

微生物革命：提取清洁技术所需关键金属

FedEx 测试 AI 在包裹追踪与退货管理的极限

Apptio：规模化智能自动化为何需财务严谨

SENEN集团CEO：企业AI为何现在该‘务实落地’

《辐射》制作人诺兰论AI：'我们正处泡沫狂热时刻'

《下载》：老矿榨取更多金属，AI深陷真相危机

Peak XV：内部分歧致合伙人离职，正加倍押注AI

Fitbit创始人推出AI平台Luffu，助力家庭健康守护

AI助力教育变革：中国市场迎来智能学习新纪元

AI时代的伦理考验：数据隐私与道德边界的博弈

Karpathy新作nanochat：百元级训练GPT-2模型，AI开源再掀波澜

Claude-Mem：Claude Code持久记忆插件爆火GitHub，开发者痛点终获解决

NVIDIA Blackwell B200芯片订单爆满，交付延期至2025年引发供应链热议

Claude 3.5 Sonnet编码测试破90%：AI编程能力逼近人类水平

Google Gemini 2.0 Flash正式发布：轻量高速多模态AI模型重塑实时应用

AI深度伪造视频泛滥X平台：美国大选诚信面临严峻考验

DeepSeek-V2中文能力超GPT-4o：中国开源AI高效新突破

马斯克重磅警示：AI发展过快，安全监管刻不容缓

Meta Llama 3.2轻量模型登场：边缘设备AI视觉新时代开启

OpenAI o1模型数学推理突破：ARC-AGI基准达83%，开启AI推理新时代

xAI Grok-2图像生成功能上线：Flux.1模型加持，媲美Midjourney引发热议

NVIDIA Blackwell B200芯片订单爆满，交付延期至2025年

Claude 3.5 Sonnet 编码测试SWE-bench超90%，AI编程能力迈向人类级别

Google Gemini 2.0 Flash正式发布：轻量高速多模态AI模型引爆开发者热潮

AI深度伪造视频泛滥X平台：美国大选诚信警钟长鸣

DeepSeek-V2中文基准超GPT-4o：中国开源AI高效突破