工程实践 (共2篇)

GPT-4o崩了：工程师最信任的AI判断力跌至0分

GPT-4o在最新评测中遭遇滑铁卢：代码bug检测能力从满分暴跌至0分。面对一段存在明显逻辑错误的代码，GPT-4o竟然回答"代码本身没有明显的bug"，暴露出其工程判断力的严重退化。

将AI代理的逻辑与搜索（推理）分离，能显著提升其可扩展性。通过解耦核心工作流与执行策略，从生成式AI原型向生产级代理转型时，可有效解决可靠性难题。LLM天生随机性导致提示不稳定，开发团队常需封装业务逻辑。本文深入剖析这一工程策略，补充行业背景，并探讨其在实际部署中的优势与未来潜力。