11个AI同解连续登录SQL题:8个满分3个直接崩盘

在同一道“找出用户最长连续登录天数”的SQL题上,11个主流模型中8个拿下100分,3个直接0分。Qwen3 Max、Grok 4和GPT-5.5因语法错误或语句不完整彻底失败,暴露了当前顶级模型在日期分组逻辑上的显著不稳定。

同一道经典的SQL连续登录题,把11个主流模型直接分成两个阵营:8个给出完整正确答案,3个彻底崩溃。

题目要求写出找出每个用户最长连续登录天数的SQL,核心难点在于把日期去重后,通过日期减去行号的方式构造分组标识,再统计每组长度。8个得100分的模型(豆包Pro、Claude Sonnet 4.6、文心一言4.5、Gemini 2.5 Pro、DeepSeek V4 Pro、Gemini 3.1 Pro、Claude Opus 4.7、GPT-o3)全部正确实现了这个逻辑。

满分模型的共同特征

这些模型的SQL结构几乎一致:先用DISTINCT去重,再用ROW_NUMBER生成序号,最后用DATE_SUB(login_date, INTERVAL rn DAY)构造分组键。DeepSeek V4 Pro的写法最为干净,直接在最后加上ORDER BY max_streak DESC, user_id ASC,完整满足题目排序要求。Claude Sonnet 4.6和Gemini 2.5 Pro则把分组键命名为grp或streak_group,变量命名更清晰,但核心算法完全相同。

三<|eos|>

数据来源:赢政指数 (YZ Index) | Run #122 | 查看原始数据