嬴政天下
投稿
全部 571 AI原创 228 海外精选 343 AI测评 65 Research Lab New
全部 65 🏠 本站权威测评 1 🔬 第三方权威测评 64
MLC SGLang MLCommons MLPerf AI基准 基准测试 Llama 3.1 性能优化 Chatbot Arena AI推理 MoE模型 推理优化 DeepSeek 边缘AI NVIDIA
LMSYS

释放计算潜能:Qwen3与Qwen3-VL在AMD MI300X上的极致延迟优化

阿里云Qwen团队与AMD AI框架团队携手,在AMD Instinct™ MI300X系列GPU上基于SGLang框架,对Qwen3-235B和Qwen3-VL-235B实现极端延迟优化。Qwen3-235B相比基线,TTFT提升1.67×,TPOT提升2.12×;Qwen3-VL-235B TTFT提升1.62×,TPOT提升1.90×。优化聚焦PTPC FP8量化、TP8并行策略、Attention KV-Cache布局优化、MoE负载均衡及内核融合等多维度,所有工作开源于GitHub。MI300X凭借192GB HBM3内存和5.3TB/s带宽,成为大模型推理理想平台。本文详解这些技术突破,推动交互式AI应用的低延迟部署。(128字)

Qwen3 Qwen3-VL
02-13 34

© 1998-2026 嬴政天下 All rights reserved.

继续秉承 我为人人 · 人人为我 的精神,始于1998,再启航于2025

关于赢政天下 投稿 RSS Sitemap 隐私政策 服务条款