Global AI Picks

Curated AI coverage from TechCrunch, MIT Technology Review, WIRED and other top global tech media. Please cite this site when republishing.

TechCrunch MIT Tech Review VentureBeat WIRED AI News

A new GPT-OSS benchmark and DeepSeek R1 updates for latency-optimized reasoning

MLPerf Inference v6.0 基准发布显著扩展了对开源大语言模型(LLM)的覆盖。随着行业转向更专业化开源模型,基准测试需适应部署策略与架构变化。本轮引入两大亮点:GPT-OSS 120B 新基准,基于117B参数MoE架构,擅长数学、科学推理与编码;DeepSeek-R1 交互场景,针对实时推理应用,首次标准化 speculative decoding。GPT-OSS 分离性能与准确数据集,准确模式覆盖 AIME 2024(82.92%)、GPQA-Diamond(74.95%)、LiveCodeBench v6(84.68%);性能模式聚焦 PubMed 摘要生成。DeepSeek-R1 交互场景 TTFT ≤1.5s、TPOT ≤15ms,支持 EAGLE-style decoding。参考实现已在 GitHub 提供。(128字)

MLC MLPerf Inference GPT-OSS 120B
800