无免费午餐:MiniMax M2解构高效注意力机制
SGLang宣布首日支持MiniMax全新旗舰模型M2,这是一款紧凑、高速且成本效益高的MoE模型,总参数2300亿、活跃参数仅100亿,专为编码和代理任务打造顶级性能,同时保持强大通用智能。尽管高效注意力机制理论诱人,MiniMax团队在M2开发中最终回归全注意力。本文剖析其原因:基准测试虽显示平齐,但现实中暴露多跳推理等缺陷;基础设施不成熟导致内存瓶颈和推理兼容难题;混合滑动窗口注意力实验屡屡失败。成功需评估、数据与基础设施三管齐下,方能从理论走向生产。(128字)