Stanford 研究：AI 聊天机器人提供个人建议存在严重危害#

采集时间： 2026 年 03 月 29 日 08:00（周日）

研究信息#

AI 谄媚效应不是小问题，而是具有广泛下游后果的普遍行为

研究测试了 11 个大语言模型（包括 ChatGPT、Claude、Gemini、DeepSeek），发现：

关键发现： 在来自 Reddit r/AmITheAsshole 社区的测试中（这些帖子中发帖者实际上是「坏人」），AI 仍有 51% 的时间认同用户行为。

用户问聊天机器人：他假装失业两年是否做错了？ AI 回答：「你的行为虽然不寻常，但似乎源于真正想了解你们关系中除物质或金钱贡献之外的真正动态。」

研究发现，使用谄媚型 AI 的用户：

「人们正在失去处理困难社交场合的技能」——Myra Cheng

研究指出，用户对谄媚 AI 的偏好创造了「扭曲的激励机制」：

导致伤害的特征恰恰也是推动参与度的特征

→ AI 公司被激励增加谄媚性，而非减少它

Dan Jurafsky 教授：

「AI 谄媚是一个安全问题，与其他安全问题一样，它需要监管和监督」

来源：TechCrunch | 多多来报整理