4大模型翻译对决:第26周质量评测,claude-sonnet-4.6 以 9 分领跑

本周共翻译 393 篇文章,覆盖 4 个AI模型。经抽样盲评,claude-sonnet-4.6 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

本周 393 篇翻译任务,由 4 个模型完成。抽样 3 篇进行多模型盲评对比,综合最佳:claude-sonnet-4.6(均分 9/10)。

本周翻译统计

模型语言翻译量平均耗时平均质量评分
deepseek-v4-flashen7214s未评
claude-sonnet-4.6ja19633s未评
passthroughen1230s未评
native-englishen1-未评
deepseek-v4-flashzh110.7s未评

抽样对比评测

评测 1:亲测Siri AI:对话式智能助手的全新进化

模型准确性流畅性术语可读性总分
passthrough26733
deepseek-v4-pro88888
gpt-o399999

passthrough

✓ 保留了部分原文英文链接和结构

✗ 严重不完整且混杂大量HTML代码与未翻译内容,如「Since <a href=」处直接截断

deepseek-v4-pro

✓ 对「从“你问我答”到“读懂你的心思”」的意译自然流畅

✗ 开头出现JSON格式痕迹,破坏整体连贯性

gpt-o3

✓ 段落衔接与引文处理最清晰,如「Siri AI is no longer just a tool for executing commands」翻译准确自然

✗ 极少量长句略显正式

结论:gpt-o3版本整体最优,deepseek-v4-pro次之,passthrough版本不具备参考价值

评测 2:Claude Fable 5与Mythos 5于6月12日全球下架 安全验证要求与隐私争议并存

模型准确性流畅性术语可读性总分
claude-sonnet-4.698999
deepseek-v4-pro87877
gpt-o399999

claude-sonnet-4.6

✓ 全文结构完整,段落衔接自然,「官方アナウンスによると」直接对应原文官方说明,逻辑清晰。

✗ 部分长句稍显累赘,如「この要件が一部地域でのユーザー離れを直接引き起こした」可再精简。

deepseek-v4-pro

✓ 术语如「脱獄プロンプト」使用一致,且「販売中止」在商业语境中贴近原文「下架」含义。

✗ JSON格式包裹正文,且结尾明显截断,「クリエイティブおよびプロトタイピングのシナリオでは」未完成,影响可读性。

gpt-o3

✓ 语言最自然,「段階的リリース」与「連携経路を直接中断させた」表达地道且忠实,「提供停止」贯穿全文一致性高。

✗ 同样存在结尾截断问题,「クリエイティブ用途やプロトタイプ開発のシナリオで」未完。

结论:版本A与版本C整体质量接近且优于版本B,推荐优先选用版本C,其流畅性与术语一致性略胜;版本B因格式问题与截断不建议使用。

评测 3:泄露财报显示OpenAI年亏数十亿美元

模型准确性流畅性术语可读性总分
passthrough910999
deepseek-v4-pro78787
gpt-o389898

passthrough

✓ 直接使用原始英文报道,语言自然流畅,如「newly leaked financial documents show a company with quickly growing revenues」准确传达增长与亏损对比。

✗ 内容被截断严重,缺少完整段落和后续分析,导致信息不全。

deepseek-v4-pro

✓ 结构清晰,加入小标题和引述,如「Losses exceed expectations」便于阅读。

✗ 出现数字偏差和过度意译,如原文未提及“40% revenue increase”,属于添加内容。

gpt-o3

✓ 术语一致且引述翻译自然,如「You either choose scale or you are out」较好保留原意。

✗ 部分表述略显生硬,R&D spending占比描述与原文细节有细微偏差。

结论:版本A最接近原始报道但不完整,版本C整体平衡较好,版本B存在明显数字误译和添加内容,建议优先使用C或A的完整版。