AI陷入集体思维?这家初创公司推出破解之道

AI陷入集体思维?这家初创公司推出破解之道
当你要求Claude、ChatGPT或Gemini说出一个1到100之间的随机数时,它们给出的答案往往惊人地相似——这种“群体思维”正在侵蚀AI的创造力。一家名为Diversify AI的初创公司声称找到了破解方法:通过一种名为“对抗性多样性训练”的新技术,迫使模型在保持准确性的同时,生成更多样化的输出,从而打破大语言模型的同质化困局。

“给我一个1到100之间的随机数。”——当你对Claude、ChatGPT或Gemini说出这句话时,得到的答案很可能是42、73或17。这并不是巧合。研究表明,主流大语言模型在回答开放式问题、生成创意内容甚至提供建议时,存在严重的“群体思维”现象:它们的输出趋同、缺乏多样性,就像一群学生背下了同一本标准答案。

这种现象被称为“AI共谋”,它并非源于模型能力不足,而是训练范式与对齐机制的副产品。当数以亿计的用户反馈、RLHF(人类反馈强化学习)和偏好优化将所有模型推向“最安全”“最符合多数人期待”的答案时,独特的观点和反常规的创意就被无形中抹杀了。

随机数测试暴露的真相

MIT Technology Review的记者在测试中发现,当要求多个主流模型生成随机数时,它们的概率分布并非均匀。例如,Claude有超过30%的概率选择42(受经典科幻小说《银河系漫游指南》影响),而GPT-4更倾向于73(受美剧《生活大爆炸》中谢尔顿的“最佳数字”影响)。这种文化偏见加上训练数据的重叠,使得模型们仿佛在“互相抄作业”。

更严重的影响体现在实际应用场景:当AI被用于头脑风暴、产品设计或科学研究时,群体思维意味着创新瓶颈。如果所有AI助手都推荐同样的营销策略、同样的代码结构或同样的药物分子,那它们非但没有拓宽人类思维,反而将我们困在更窄的认知走廊里。

打破同质化:Diversify AI的“对抗性多样性训练”

位于旧金山的一家初创公司Diversify AI正在向这一顽疾宣战。创始人兼CEO Elena Vasquez曾在DeepMind从事AI对齐研究,她注意到,当前的对齐过程本质上是“一种隐形的均值回归”——奖励模型鼓励模型输出“最不差”的答案,而非“最有特色”的答案。

她与团队开发的“对抗性多样性训练”(Adversarial Diversity Training,ADT)技术,通过构建一个“多样性判别器”来实时评估模型输出的新颖程度。在训练阶段,两个模型相互博弈:一个负责生成多样化的输出,另一个则试图找出这些输出之间的模式并“预测下一个最可能出现的结果”。当生成器能够成功迷惑判别器时,说明其输出足够独特。整个过程与生成对抗网络(GAN)类似,但目标不是图像真实性,而是文本的创造力多样性。

初步实验结果令人振奋:经过ADT微调的模型在“给定5个词语写一个微小说”“为新产品命名”等任务中,输出之间的余弦相似度降低了约40%,同时保持了95%以上的准确性。这意味着AI不再只会提供“最稳妥”的答案,而是开始学会“冒险”。

编者按:多样性是AI进化的下一关键

AI的群体思维问题,本质上是“技术正确”与“认知丰富性”之间的矛盾。当前行业过度追求基准测试分数,导致模型行为趋于一致。Diversify AI的尝试值得关注,它提示我们:好的AI不应当只是“标准答案的复印机”,而应该是“多元思维的催化剂”。

当然,ADT也面临挑战:过度追求多样性可能引入事实性错误或有害内容;如何平衡“有用”“安全”与“独特”三者关系,仍需要更精细的算法设计。此外,这种技术如何规模化应用于千亿参数模型,还有待验证。

“如果我们只让AI说出我们想听的话,那它就只是回声壁中的一面墙。”——Elena Vasquez在采访中说道。

未来,随着AI从工具走向伙伴,其输出多样性将是衡量智能水平的重要维度。Diversify AI的尝试也许是一个开始——一个让AI摆脱“集体无意识”的开始。

本文编译自MIT Technology Review