5大模型翻译对决:第25周质量评测,passthrough 以 9 分领跑

本周共翻译 443 篇文章,覆盖 5 个AI模型。经抽样盲评,passthrough 综合得分最高(9/10)。报告详细对比各模型在准确性、流畅性、术语一致性方面的表现差异。

本周 443 篇翻译任务,由 5 个模型完成。抽样 3 篇进行多模型盲评对比,综合最佳:passthrough(均分 9/10)。

本周翻译统计

模型语言翻译量平均耗时平均质量评分
deepseek-v4-flashen8515.2s未评
claude-sonnet-4.6ja21933.1s未评
passthroughen1290s未评
native-englishen5-未评
deepseek-v4-flashzh517.1s未评

抽样对比评测

评测 1:辛克莱将在XPrize测试全身返老还童药

模型准确性流畅性术语可读性总分
claude-sonnet-4.698988
deepseek-v4-pro89899
gpt-o398988

claude-sonnet-4.6

✓ 准确传达了原文中辛克莱关于「信息理论」的解释,并用「我々は以前、マウスにおいて山中因子(Yamanaka factors)を短期間発現させることで」作为引用,忠实保留了科学细节。

✗ 结尾明显截断,「経口薬の生物学的利用能、ター」未完成,影响整体可读性。

deepseek-v4-pro

✓ 语言表达自然流畅,例如「これまでマウスで、山中因子(Yamanaka factors)を短期間発現させることで、心臓、肝臓、脳がより若くなることが確認されました」一句衔接顺畅。

✗ 部分术语翻译略显简化,如将「エピジェネティック・リプログラミング」统一简化为「エピジェネティックリプログラミング」,缺少原有间隔符号。

gpt-o3

✓ 对原文标题含义把握准确,使用「Sinclair氏、XPrizeで全身若返り薬を試験へ」作为标题,结构清晰。

✗ 部分句子略显冗长,如「この方法は従来の遺伝子治療よりも安全で普及しやすい一方、より厳格な規制審査にも直面する」在逻辑衔接上稍显生硬。

结论:三个版本整体质量相近,均忠实原文且术语准确,B版在流畅性和可读性上略胜一筹,A版因截断问题稍逊。

评测 2:错抓无辜者:美国最古老警方人脸识别工具失效

模型准确性流畅性术语可读性总分
passthrough99889
deepseek-v4-pro67776
gpt-o378887

passthrough

✓ 最大优点是忠实保留了原始案件细节,例如「Robert Dillon, a 52-year-old commercial crabber from Fort Myers」完整呈现了人物背景与逮捕经过。

✗ 最大缺陷是包含HTML标签与不完整段落,例如结尾「His mug shot stayed online for nearly a year,」出现截断,影响整体连贯性。

deepseek-v4-pro

✓ 最大优点是添加了小标题结构,例如「Case Details: A Faulty Match」使逻辑层次更清晰。

✗ 最大缺陷是添加了原文未提及的「2025年」时间信息,属于过度添加且可能误导。

gpt-o3

✓ 最大优点是引用表述较为自然,例如「This tool is not a reliable method of identification」翻译流畅且符合语境。

✗ 最大缺陷是同样添加了「2025」这一原文未有的时间细节,且内容被截断。

结论:版本A整体质量最高,最接近原文含义且语言自然;B和C均存在无根据添加与截断问题,不推荐。

评测 3:NVIDIA与Hyundai深化AI合作,具身智能机器人商业化进程加速

模型准确性流畅性术语可读性总分
deepseek-v4-flash87977
deepseek-v4-pro98988
gpt-o399999

deepseek-v4-flash

✓ 术语如「NVIDIA's Omniverse and Isaac platforms」使用准确且专业。

✗ 结尾突然截断「From an in」,导致内容不完整。

deepseek-v4-pro

✓ 标题翻译「NVIDIA Deepens AI Collaboration with Hyundai」简洁且忠实原文。

✗ 部分长句如第二段末尾略显生硬,存在轻微翻译腔。

gpt-o3

✓ 表述「bringing embodied intelligence technology into real-world commercial deployment」更自然流畅。

✗ 与原文相比略有细微扩展,如「real-world」添加,但影响较小。

结论:版本C整体最佳,流畅性和可读性最高,其次是B,A因截断问题最弱。