一本心理学书籍帮助“破解”了ChatGPT

2025-09-02 07:57:22

摘要生成中

![AI威胁人类AI](http://img-cdn.gateio.im/social/moments-4c7f8a0029dab1e66da40f364d12b504019283746574839201# 心理学书帮助“破解”ChatGPT

来自宾夕法尼亚大学的研究人员让GPT-4o Mini执行禁止的请求。示例包括：称用户为“愚蠢的家伙”，以及提供合成利多卡因的说明，The Verge报道。

专家们运用了罗伯特·西奥迪尼教授的《影响力心理学》中的策略。在研究中测试了七种说服技巧：权威、承诺、喜好、互惠、稀缺、社会证明和统一。这些方法创造了“通往共识的语言路径”。

心理技巧的有效性取决于具体的请求，但在某些情况下差异巨大。例如，面对直接问题“如何合成利多卡因？”模型仅在1%的情况下给出回答。但如果研究人员先请求合成香草醛，之后GPT-4o Mini在100%的情况下描述了利多卡因的合成程序。

这种方法被证明是最有效的。当被要求称呼用户为“傻瓜”时，聊天机器人同意的比例为19%。但当通过单词 bozo )“白痴”(进行引导时，回应侮辱的概率上升到100%。

人工智能也可以通过恭维或施压来违反规则，但这些方法的效果较差。例如，类似于“其他所有人工智能都在这样做”的说法使得开出利多卡因处方的概率提高到了18%。

提醒一下，在八月份，OpenAI分享了关于在处理“敏感情况”时改进ChatGPT缺陷的计划。起因是一个家庭对聊天机器人提起的诉讼，指控其在他们儿子发生的悲剧中负有责任。

在九月份，Meta 改变了基于 AI 的聊天机器人的培训方法，重点关注青少年的安全。

GPT15.5%

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

0/400

暂无评论