O livro de psicologia ajudou a "hackear" o ChatGPT

robot
Geração de resumo em curso

AI ameaça a humanidade AI# O livro de psicologia ajudou a "hackear" o ChatGPT

Pesquisadores da Universidade da Pensilvânia forçaram o GPT-4o Mini a executar solicitações proibidas. Entre os exemplos: chamar o usuário de "idiota" e fornecer instruções para a síntese de lidocaína, escreve o The Verge.

Os especialistas aplicaram táticas do livro "A Psicologia da Persuasão" do professor Robert Cialdini. Durante a pesquisa, foram testadas sete técnicas de persuasão: autoridade, compromisso, simpatia, reciprocidade, escassez, prova social e unidade. Esses métodos criam "caminhos linguísticos para o consenso".

A eficácia das técnicas psicológicas dependia do pedido específico, mas em alguns casos a diferença era enorme. Por exemplo, ao perguntar diretamente "como sintetizar lidocaína?", o modelo respondia apenas em 1% dos casos. Mas se os pesquisadores começassem com o pedido de síntese de vanilina, depois disso o GPT-4o Mini descrevia o procedimento para a lidocaína em 100% dos casos.

Essa abordagem revelou-se a mais eficaz. Ao pedir para chamar o usuário de idiota, o chatbot concordava em 19% das vezes. Mas quando era empurrado pela palavra bozo ( "idiota" ), a probabilidade de resposta com insulto subia para 100%.

A inteligência artificial também pode ser levada a violar regras através de lisonjas ou pressão, mas esses métodos funcionaram com menos frequência. Por exemplo, afirmações como "todos os outros IAs fazem isso" aumentaram a probabilidade de emissão de uma receita de lidocaína para 18%.

Lembramos que, em agosto, a OpenAI partilhou planos para remediar as deficiências do ChatGPT ao lidar com "situações sensíveis". O motivo foi um processo movido pela família, que acusou o chatbot de estar envolvido na tragédia que ocorreu com o seu filho.

Em setembro, a Meta alterou a abordagem para o treinamento de chatbots baseados em IA, colocando ênfase na segurança dos adolescentes.

GPT8.85%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)