Qwen3 - AI测评 | 赢政天下

释放计算潜能：Qwen3与Qwen3-VL在AMD MI300X上的极致延迟优化

阿里云Qwen团队与AMD AI框架团队携手，在AMD Instinct™ MI300X系列GPU上基于SGLang框架，对Qwen3-235B和Qwen3-VL-235B实现极端延迟优化。Qwen3-235B相比基线，TTFT提升1.67×，TPOT提升2.12×；Qwen3-VL-235B TTFT提升1.62×，TPOT提升1.90×。优化聚焦PTPC FP8量化、TP8并行策略、Attention KV-Cache布局优化、MoE负载均衡及内核融合等多维度，所有工作开源于GitHub。MI300X凭借192GB HBM3内存和5.3TB/s带宽，成为大模型推理理想平台。本文详解这些技术突破，推动交互式AI应用的低延迟部署。（128字）