4大模型翻译对决：第26周质量评测，claude-sonnet-4.6 以 9 分领跑

Jun 22, 2026 39 approx.5min Translation Quality Report

Translation Quality AI Model Comparison passthrough deepseek-v4-pro gpt-o3 claude-sonnet-4.6

本周 393 篇翻译任务，由 4 个模型完成。抽样 3 篇进行多模型盲评对比，综合最佳：claude-sonnet-4.6（均分 9/10）。

本周翻译统计

模型	语言	翻译量	平均耗时	平均质量评分
deepseek-v4-flash	en	72	14s	未评
claude-sonnet-4.6	ja	196	33s	未评
passthrough	en	123	0s	未评
native-english	en	1	-	未评
deepseek-v4-flash	zh	1	10.7s	未评

抽样对比评测

评测 1：亲测Siri AI：对话式智能助手的全新进化

模型	准确性	流畅性	术语	可读性	总分
passthrough	2	6	7	3	3
deepseek-v4-pro	8	8	8	8	8
gpt-o3	9	9	9	9	9

passthrough

✓ 保留了部分原文英文链接和结构

✗ 严重不完整且混杂大量HTML代码与未翻译内容，如「Since <a href=」处直接截断

deepseek-v4-pro

✓ 对「从“你问我答”到“读懂你的心思”」的意译自然流畅

✗ 开头出现JSON格式痕迹，破坏整体连贯性

gpt-o3

✓ 段落衔接与引文处理最清晰，如「Siri AI is no longer just a tool for executing commands」翻译准确自然

✗ 极少量长句略显正式

结论：gpt-o3版本整体最优，deepseek-v4-pro次之，passthrough版本不具备参考价值

评测 2：Claude Fable 5与Mythos 5于6月12日全球下架安全验证要求与隐私争议并存

模型	准确性	流畅性	术语	可读性	总分
claude-sonnet-4.6	9	8	9	9	9
deepseek-v4-pro	8	7	8	7	7
gpt-o3	9	9	9	9	9

claude-sonnet-4.6

✓ 全文结构完整，段落衔接自然，「官方アナウンスによると」直接对应原文官方说明，逻辑清晰。

✗ 部分长句稍显累赘，如「この要件が一部地域でのユーザー離れを直接引き起こした」可再精简。

deepseek-v4-pro

✓ 术语如「脱獄プロンプト」使用一致，且「販売中止」在商业语境中贴近原文「下架」含义。

✗ JSON格式包裹正文，且结尾明显截断，「クリエイティブおよびプロトタイピングのシナリオでは」未完成，影响可读性。

gpt-o3

✓ 语言最自然，「段階的リリース」与「連携経路を直接中断させた」表达地道且忠实，「提供停止」贯穿全文一致性高。

✗ 同样存在结尾截断问题，「クリエイティブ用途やプロトタイプ開発のシナリオで」未完。

结论：版本A与版本C整体质量接近且优于版本B，推荐优先选用版本C，其流畅性与术语一致性略胜；版本B因格式问题与截断不建议使用。

评测 3：泄露财报显示OpenAI年亏数十亿美元

模型	准确性	流畅性	术语	可读性	总分
passthrough	9	10	9	9	9
deepseek-v4-pro	7	8	7	8	7
gpt-o3	8	9	8	9	8

passthrough

✓ 直接使用原始英文报道，语言自然流畅，如「newly leaked financial documents show a company with quickly growing revenues」准确传达增长与亏损对比。

✗ 内容被截断严重，缺少完整段落和后续分析，导致信息不全。

deepseek-v4-pro

✓ 结构清晰，加入小标题和引述，如「Losses exceed expectations」便于阅读。

✗ 出现数字偏差和过度意译，如原文未提及“40% revenue increase”，属于添加内容。

gpt-o3

✓ 术语一致且引述翻译自然，如「You either choose scale or you are out」较好保留原意。

✗ 部分表述略显生硬，R&D spending占比描述与原文细节有细微偏差。

结论：版本A最接近原始报道但不完整，版本C整体平衡较好，版本B存在明显数字误译和添加内容，建议优先使用C或A的完整版。

本周翻译统计

抽样对比评测

评测 1：亲测Siri AI：对话式智能助手的全新进化

passthrough

deepseek-v4-pro

gpt-o3

评测 2：Claude Fable 5与Mythos 5于6月12日全球下架 安全验证要求与隐私争议并存

claude-sonnet-4.6

deepseek-v4-pro

gpt-o3

评测 3：泄露财报显示OpenAI年亏数十亿美元

passthrough

deepseek-v4-pro

gpt-o3

Related Articles

评测 2：Claude Fable 5与Mythos 5于6月12日全球下架安全验证要求与隐私争议并存