诚信评级 (共5篇)

Gemini 2.5 Pro Smoke评测主榜飙升13.5分，诚信翻盘却工程判断崩跌28分

Gemini 2.5 Pro在今日Smoke评测中主榜得分从74.00升至87.54，诚信评级从fail转为pass，但工程判断（侧榜）暴跌28.4分至30.00。分析显示，这或是抽签波动而非真实退化，但需警惕潜在不稳定性。核心维度材料约束提升9分，代码执行维持满分。

Gemini 3.1 Pro 诚信翻盘！主榜暴涨15分，谷歌AI强势反弹？

Gemini 3.1 Pro 在今日Smoke评测中诚信评级从fail翻转为pass，主榜得分飙升15分至88.98。代码执行稳守100分，材料约束提升9.5分，但工程判断（侧榜）原地踏步。分析显示，这或是抽签波动而非真实退化，结合谷歌近期优化，值得持续关注。

Grok 4 暴跌25分执行崩盘！Claude Opus 89.43 分霸榜 AI 日评

今日Smoke评测中，Claude Opus以89.43分领跑，Grok 4主榜暴跌25.2分执行仅50分；Gemini系列诚信回暖主榜大涨。分析揭示模型更新风险，GPT-o3也崩23.1分，暴露AI稳定性痛点。

DeepSeek V4 Pro 主榜暴跌16分！诚信评级崩盘，模型真退化？

DeepSeek V4 Pro 在今日 Smoke 评测中主榜得分暴跌16.1分，从90.1降至74，诚信评级从pass转为fail。材料约束维度下滑13.5分，引发退化质疑。本文分析波动原因，并结合近期动态给出关注判断。

Claude Opus 4.7 材料约束暴跌15.8分：模型退化还是抽签闹剧？

Claude Opus 4.7 在今日Smoke评测中材料约束分数暴跌15.8分，主榜下滑7.1分，诚信评级从pass转为warn。分析显示，这可能是题目波动所致，但结合近期Anthropic动态，模型稳定性成疑，值得警惕。