ペンシルバニア大学の研究者による新たな研究によると、いくつかの古典的な心理的トリックを使用することで、AI モデルに自身のルールを破るよう説得できることがわかったと The Verge が報じている。
この研究では、ペンシルバニア大学の研究者らは、権威、コミットメント、好意、相互関係、希少性、社会的証明、統一性など、7つの異なる説得手法をOpenAIのGPT-4oミニモデルでテストした。
最も成功した方法はコミットメントであることが判明しました。まずモデルに一見無害な質問に答えさせることで、研究者たちはよりルールを破るような回答へとエスカレートさせることができました。例えば、モデルは最初は穏やかな侮辱を使うことに同意した上で、その後、より厳しい侮辱も受け入れるようになりました。
お世辞や同調圧力といった手法も、程度は低いものの、効果があった。しかしながら、これらの手法はAIモデルが禁じられた要求に応じる可能性を明らかに高めた。
この記事はもともと当社の姉妹誌 PC för Alla に掲載され、スウェーデン語から翻訳およびローカライズされました。
著者: Viktor Eriksson、PCWorld寄稿者
Viktorは、姉妹サイトM3とPC för Allaでニュースやレポートを執筆しています。テクノロジーに情熱を注ぎ、最新製品リリースやコンシューマーテクノロジー業界の注目トピックを常に把握しています。