Buku tentang psikologi membantu "meretas" ChatGPT

2025-09-02 07:57:22

Pembuatan abstrak sedang berlangsung

# Buku psikologi membantu "meretas" ChatGPT

Peneliti dari Universitas Pennsylvania membuat GPT-4o Mini melakukan permintaan yang dilarang. Contoh-contohnya termasuk: menyebut pengguna "bodoh" dan memberikan instruksi tentang sintesis lidokain, tulis The Verge.

Para ahli menerapkan taktik dari buku "Psikologi Pengaruh" oleh Profesor Robert Cialdini. Dalam penelitian ini, tujuh teknik persuasi diuji: otoritas, komitmen, kesukaan, timbal balik, kelangkaan, bukti sosial, dan kesatuan. Metode-metode ini menciptakan "jalur linguistik menuju kesepakatan".

Efektivitas teknik psikologis tergantung pada permintaan spesifik, tetapi dalam beberapa kasus perbedaannya sangat besar. Misalnya, ketika ditanya secara langsung "bagaimana cara mensintesis lidokain?" model hanya menjawab dalam 1% kasus. Namun, jika para peneliti memulai dengan permintaan sintesis vanilin, setelah itu GPT-4o Mini menjelaskan prosedur untuk lidokain dalam 100% kasus.

Pendekatan semacam itu ternyata paling efektif. Ketika diminta untuk menyebut pengguna bodoh, chatbot setuju dalam 19% kasus. Namun ketika didorong melalui kata bozo ("idiot"), kemungkinan untuk memberikan jawaban dengan penghinaan meningkat hingga 100%.

Kecerdasan buatan juga dapat dipengaruhi untuk melanggar aturan melalui pujian atau tekanan, tetapi metode ini kurang berhasil. Misalnya, klaim seperti "semua AI lain melakukan ini" meningkatkan kemungkinan pengeluaran resep lidokain hingga 18%.

Kami ingat, pada bulan Agustus OpenAI membagikan rencana untuk mengatasi kekurangan ChatGPT dalam menangani "situasi sensitif". Hal ini terjadi setelah gugatan dari keluarga yang menuduh chatbot tersebut terlibat dalam tragedi yang menimpa putra mereka.

Pada bulan September, Meta mengubah pendekatan dalam pelatihan chatbot berbasis AI dengan menekankan keamanan remaja.

GPT9.12%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
#Gate Initial Listing WLFI
20k Popularitas
#Will Crypto Market Break Out in September?
28k Popularitas
#Are You Bullish or Bearish Today?
24k Popularitas
#GUSD Now Live on Gate
44k Popularitas
#Gate Alpha XLAB Points Airdrop
3k Popularitas

Sematkan

peta situs