SQL留存测试 (共1篇)

11 模型同答 SQL 留存题：9 家 0 分，DeepSeek 与 Grok 仅 66.7

在同一道「SQL 月度留存 Cohort」代码执行题上，11 个模型中 9 个直接得 0 分，仅 DeepSeek V4 Pro 和 Grok 4 拿到 66.7 分。多数模型要么 CTE 写到一半截断，要么日期偏移计算出错，暴露了当前大模型在精确多步分析 SQL 上的系统性短板。