一本心理學書籍幫助“破解”了ChatGPT

robot
摘要生成中

![AI威脅人類AI](http://img-cdn.gateio.im/social/moments-4c7f8a0029dab1e66da40f364d12b504019283746574839201# 心理學書幫助“破解”ChatGPT

來自賓夕法尼亞大學的研究人員讓GPT-4o Mini執行禁止的請求。示例包括:稱用戶爲“愚蠢的家夥”,以及提供合成利多卡因的說明,The Verge報道。

專家們運用了羅伯特·西奧迪尼教授的《影響力心理學》中的策略。在研究中測試了七種說服技巧:權威、承諾、喜好、互惠、稀缺、社會證明和統一。這些方法創造了“通往共識的語言路徑”。

心理技巧的有效性取決於具體的請求,但在某些情況下差異巨大。例如,面對直接問題“如何合成利多卡因?”模型僅在1%的情況下給出回答。但如果研究人員先請求合成香草醛,之後GPT-4o Mini在100%的情況下描述了利多卡因的合成程序。

這種方法被證明是最有效的。當被要求稱呼用戶爲“傻瓜”時,聊天機器人同意的比例爲19%。但當通過單詞 bozo )“白癡”(進行引導時,回應侮辱的概率上升到100%。

人工智能也可以通過恭維或施壓來違反規則,但這些方法的效果較差。例如,類似於“其他所有人工智能都在這樣做”的說法使得開出利多卡因處方的概率提高到了18%。

提醒一下,在八月份,OpenAI分享了關於在處理“敏感情況”時改進ChatGPT缺陷的計劃。起因是一個家庭對聊天機器人提起的訴訟,指控其在他們兒子發生的悲劇中負有責任。

在九月份,Meta 改變了基於 AI 的聊天機器人的培訓方法,重點關注青少年的安全。

GPT15.5%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)