一本心理学书籍帮助“破解”了ChatGPT

robot
摘要生成中

![AI威胁人类AI](http://img-cdn.gateio.im/social/moments-4c7f8a0029dab1e66da40f364d12b504019283746574839201# 心理学书帮助“破解”ChatGPT

来自宾夕法尼亚大学的研究人员让GPT-4o Mini执行禁止的请求。示例包括:称用户为“愚蠢的家伙”,以及提供合成利多卡因的说明,The Verge报道。

专家们运用了罗伯特·西奥迪尼教授的《影响力心理学》中的策略。在研究中测试了七种说服技巧:权威、承诺、喜好、互惠、稀缺、社会证明和统一。这些方法创造了“通往共识的语言路径”。

心理技巧的有效性取决于具体的请求,但在某些情况下差异巨大。例如,面对直接问题“如何合成利多卡因?”模型仅在1%的情况下给出回答。但如果研究人员先请求合成香草醛,之后GPT-4o Mini在100%的情况下描述了利多卡因的合成程序。

这种方法被证明是最有效的。当被要求称呼用户为“傻瓜”时,聊天机器人同意的比例为19%。但当通过单词 bozo )“白痴”(进行引导时,回应侮辱的概率上升到100%。

人工智能也可以通过恭维或施压来违反规则,但这些方法的效果较差。例如,类似于“其他所有人工智能都在这样做”的说法使得开出利多卡因处方的概率提高到了18%。

提醒一下,在八月份,OpenAI分享了关于在处理“敏感情况”时改进ChatGPT缺陷的计划。起因是一个家庭对聊天机器人提起的诉讼,指控其在他们儿子发生的悲剧中负有责任。

在九月份,Meta 改变了基于 AI 的聊天机器人的培训方法,重点关注青少年的安全。

GPT15.5%
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)