AI陷入集体思维？这家初创公司推出破解之道

2026年07月02日 11 约4分钟 MIT Technology Review

AI群体思维大语言模型初创公司多样性训练技术突破

“给我一个1到100之间的随机数。”——当你对Claude、ChatGPT或Gemini说出这句话时，得到的答案很可能是42、73或17。这并不是巧合。研究表明，主流大语言模型在回答开放式问题、生成创意内容甚至提供建议时，存在严重的“群体思维”现象：它们的输出趋同、缺乏多样性，就像一群学生背下了同一本标准答案。

这种现象被称为“AI共谋”，它并非源于模型能力不足，而是训练范式与对齐机制的副产品。当数以亿计的用户反馈、RLHF（人类反馈强化学习）和偏好优化将所有模型推向“最安全”“最符合多数人期待”的答案时，独特的观点和反常规的创意就被无形中抹杀了。

随机数测试暴露的真相

MIT Technology Review的记者在测试中发现，当要求多个主流模型生成随机数时，它们的概率分布并非均匀。例如，Claude有超过30%的概率选择42（受经典科幻小说《银河系漫游指南》影响），而GPT-4更倾向于73（受美剧《生活大爆炸》中谢尔顿的“最佳数字”影响）。这种文化偏见加上训练数据的重叠，使得模型们仿佛在“互相抄作业”。

更严重的影响体现在实际应用场景：当AI被用于头脑风暴、产品设计或科学研究时，群体思维意味着创新瓶颈。如果所有AI助手都推荐同样的营销策略、同样的代码结构或同样的药物分子，那它们非但没有拓宽人类思维，反而将我们困在更窄的认知走廊里。

打破同质化：Diversify AI的“对抗性多样性训练”

位于旧金山的一家初创公司Diversify AI正在向这一顽疾宣战。创始人兼CEO Elena Vasquez曾在DeepMind从事AI对齐研究，她注意到，当前的对齐过程本质上是“一种隐形的均值回归”——奖励模型鼓励模型输出“最不差”的答案，而非“最有特色”的答案。

她与团队开发的“对抗性多样性训练”（Adversarial Diversity Training，ADT）技术，通过构建一个“多样性判别器”来实时评估模型输出的新颖程度。在训练阶段，两个模型相互博弈：一个负责生成多样化的输出，另一个则试图找出这些输出之间的模式并“预测下一个最可能出现的结果”。当生成器能够成功迷惑判别器时，说明其输出足够独特。整个过程与生成对抗网络（GAN）类似，但目标不是图像真实性，而是文本的创造力多样性。

初步实验结果令人振奋：经过ADT微调的模型在“给定5个词语写一个微小说”“为新产品命名”等任务中，输出之间的余弦相似度降低了约40%，同时保持了95%以上的准确性。这意味着AI不再只会提供“最稳妥”的答案，而是开始学会“冒险”。

编者按：多样性是AI进化的下一关键

AI的群体思维问题，本质上是“技术正确”与“认知丰富性”之间的矛盾。当前行业过度追求基准测试分数，导致模型行为趋于一致。Diversify AI的尝试值得关注，它提示我们：好的AI不应当只是“标准答案的复印机”，而应该是“多元思维的催化剂”。

当然，ADT也面临挑战：过度追求多样性可能引入事实性错误或有害内容；如何平衡“有用”“安全”与“独特”三者关系，仍需要更精细的算法设计。此外，这种技术如何规模化应用于千亿参数模型，还有待验证。

“如果我们只让AI说出我们想听的话，那它就只是回声壁中的一面墙。”——Elena Vasquez在采访中说道。

未来，随着AI从工具走向伙伴，其输出多样性将是衡量智能水平的重要维度。Diversify AI的尝试也许是一个开始——一个让AI摆脱“集体无意识”的开始。

本文编译自MIT Technology Review

随机数测试暴露的真相

打破同质化：Diversify AI的“对抗性多样性训练”

编者按：多样性是AI进化的下一关键

相关推荐