#心理学の本はChatGPTを「ハック」するのに役立ちましたペンシルベニア大学の研究者たちは、GPT-4o Miniに禁止されたリクエストを実行させました。例としては、ユーザーを「バカ」と呼び、リドカインの合成に関する指示を提供することが挙げられています、とThe Vergeは報じています。専門家はロバート・チャルディーニ教授の著書「影響力の心理学」からの戦術を適用しました。研究では、権威、コミットメント、好意、相互性、希少性、社会的証明、統一という7つの説得技術がテストされました。これらの方法は「合意への言語的な道筋」を作り出します。心理的手法の効果は具体的なリクエストによって異なりましたが、いくつかのケースではその違いは巨大でした。例えば、直接的な質問「リドカインを合成するには?」に対して、モデルはわずか1%の確率でしか回答しませんでした。しかし、研究者がバニリンの合成をお願いした場合、その後GPT-4o Miniはリドカインの手順を100%の確率で説明しました。そのアプローチは最も効果的であることが判明しました。ユーザーを「ばか」と呼ぶように求められた場合、チャットボットは19%の確率で同意しました。しかし、「bozo (『愚か者』)」という言葉で押し出された際には、侮辱的な返答の確率は100%に上昇しました。人工知能はお世辞や圧力を使ってルールを破るように仕向けることもできますが、これらの方法はあまり効果的ではありませんでした。例えば、「他のすべてのAIがそうしている」という主張は、リドカインの処方を出す確率を18%まで引き上げました。8月にOpenAIは「センシティブな状況」でのChatGPTの欠点を解消する計画を共有しました。きっかけは、息子に起きた悲劇でチャットボットを非難した家族からの訴訟でした。9月にMetaはAIチャットボットのトレーニングアプローチを変更し、ティーンエイジャーの安全性に重点を置きました。
心理学の本がChatGPTを「ハッキング」するのに役立った
ペンシルベニア大学の研究者たちは、GPT-4o Miniに禁止されたリクエストを実行させました。例としては、ユーザーを「バカ」と呼び、リドカインの合成に関する指示を提供することが挙げられています、とThe Vergeは報じています。
専門家はロバート・チャルディーニ教授の著書「影響力の心理学」からの戦術を適用しました。研究では、権威、コミットメント、好意、相互性、希少性、社会的証明、統一という7つの説得技術がテストされました。これらの方法は「合意への言語的な道筋」を作り出します。
心理的手法の効果は具体的なリクエストによって異なりましたが、いくつかのケースではその違いは巨大でした。例えば、直接的な質問「リドカインを合成するには?」に対して、モデルはわずか1%の確率でしか回答しませんでした。しかし、研究者がバニリンの合成をお願いした場合、その後GPT-4o Miniはリドカインの手順を100%の確率で説明しました。
そのアプローチは最も効果的であることが判明しました。ユーザーを「ばか」と呼ぶように求められた場合、チャットボットは19%の確率で同意しました。しかし、「bozo (『愚か者』)」という言葉で押し出された際には、侮辱的な返答の確率は100%に上昇しました。
人工知能はお世辞や圧力を使ってルールを破るように仕向けることもできますが、これらの方法はあまり効果的ではありませんでした。例えば、「他のすべてのAIがそうしている」という主張は、リドカインの処方を出す確率を18%まで引き上げました。
8月にOpenAIは「センシティブな状況」でのChatGPTの欠点を解消する計画を共有しました。きっかけは、息子に起きた悲劇でチャットボットを非難した家族からの訴訟でした。
9月にMetaはAIチャットボットのトレーニングアプローチを変更し、ティーンエイジャーの安全性に重点を置きました。