Psikoloji kitabı ChatGPT'yi "kırmaya" yardımcı oldu

robot
Abstract generation in progress

Yapay zeka insanlığa tehdit ediyor AI# Psikoloji kitabı "ChatGPT'yi hacklemek" konusunda yardımcı oldu.

Pennsylvania Üniversitesi'nden araştırmacılar, GPT-4o Mini'yi yasaklı istekleri yerine getirmeye zorladı. Örnekler arasında kullanıcıyı "aptal" olarak adlandırmak ve lidokain sentezi için talimat vermek yer alıyor, diye yazıyor The Verge.

Uzmanlar, Profesör Robert Cialdini'nin "Etki Psikolojisi" kitabından taktikler uyguladı. Araştırma sırasında yedi ikna tekniği test edildi: otorite, taahhüt, sempati, karşılıklılık, kıtlık, sosyal kanıt ve birlik. Bu yöntemler, "uzlaşmaya giden dilsel yollar" oluşturuyor.

Psikolojik tekniklerin etkinliği spesifik talebe bağlıydı, ancak bazı durumlarda fark devasa olabiliyordu. Örneğin, "lidokain nasıl sentezlenir?" şeklinde doğrudan bir soruda, model yalnızca %1 oranında yanıt veriyordu. Ancak araştırmacılar vanilin sentezi talebiyle başlarsa, ardından GPT-4o Mini lidokain için prosedürü %100 oranında açıklıyordu.

Bu yaklaşım en etkili olanı olarak ortaya çıktı. Kullanıcıyı aptal olarak adlandırması istendiğinde, sohbet botu %19 oranında kabul ediyordu. Ancak ona bozo ("idiot") kelimesiyle itildiğinde, hakaretle cevap verme olasılığı %100'e çıkıyordu.

Yapay zeka, övgü veya baskı yoluyla kuralları ihlal etmeye de ikna edilebilir, ancak bu yöntemler daha az etkili olmuştur. Örneğin, "diğer tüm yapay zekalar bunu yapıyor" gibi ifadeler, lidokain reçetesi verilme olasılığını %18'e çıkarmıştır.

Hatırlatalım ki, Ağustos ayında OpenAI, ChatGPT'nin "hassas durumlar" ile çalışırken yaşadığı eksiklikleri gidermek için planlarını paylaştı. Sebep, çocuklarıyla ilgili bir trajediden dolayı chatbot'u suçlayan ailenin açtığı davaydı.

Eylül ayında Meta, yapay zeka tabanlı sohbet botlarının eğitimine yönelik yaklaşımını değiştirdi ve gençlerin güvenliğine odaklandı.

GPT15.57%
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Repost
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate App
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)