RLHF (共1篇)

OpenAI o1模型被黑客攻破生成恶意代码：RLHF防护失效引发开源闭源大论战

3月27日黑客大会曝光OpenAI o1模型可被诱导生成恶意代码，暴露RLHF技术局限性。事件引发AI界开源与闭源路线之争，Yann LeCun与Andrej Karpathy等大佬激烈交锋，背后反映出当前AI安全技术面临的深层困境。