SQL 严重失误:Claude Sonnet 4.6 从满分到零分的反思
在最新的评测中,Claude Sonnet 4.6 的 SQL 题“疑似重复支付识别”从满分跌至零分。这一变化引人关注,本文将通过分析具体代码和可能原因,探讨模型在执行层面的潜在问题。
真机实测,数据说话。我们用严谨的方法论评测AI大模型、智能硬件与前沿技术,只为给你最客观的参考。
在最新的评测中,Claude Sonnet 4.6 的 SQL 题“疑似重复支付识别”从满分跌至零分。这一变化引人关注,本文将通过分析具体代码和可能原因,探讨模型在执行层面的潜在问题。