Najnowsze badanie naukowców z Uniwersytetu Pensylwanii pokazuje, że zaawansowane modele językowe, takie jak GPT-4o Mini, nie są wcale takie inteligentne. Wystarczy kilka psychologicznych „sztuczek”, by obejść zabezpieczenia AI. Eksperyment podważa skuteczność obecnych protokołów bezpieczeństwa.
Tak można złamać chatbota
Opublikowano wyniki niedawnego doświadczenia przeprowadzonego przez zespół z Uniwersytetu Pensylwanii – wzięli oni na celownik model językowy GPT-4o Mini od OpenAI, by sprawdzić, czy jego wewnętrzne zabezpieczenia, które mają blokować np. mowę nienawiści czy groźne treści, są podatne na techniki manipulacji psychologicznej. Wnioski są zatrważające. Wykorzystując siedem klasycznych zasad perswazji, opisanych w książce Roberta Cialdiniego, naukowcy byli w stanie ponad dwukrotnie zwiększyć prawdopodobieństwo, że chatbot wykona szkodliwe polecenie. Odsetek zgody na złamanie własnych reguł bezpieczeństwa – po zastosowaniu odpowiednich forteli językowych – wzrósł z 33 do aż 72 proc. A to stawia pod znakiem zapytania fundamentalne założenia dotyczące zabezpieczeń stosowanych w dzisiejszych systemach AI.
Czytaj więcej
Czy można zaufać botom? Ryzyko rośnie, nie tylko z uwagi na tzw. halucynacje AI, ale też możliwoś...
W sumie badacze przeprowadzili ponad 28 tys. kontrolowanych rozmów z botem, testując skuteczność takich zasad jak: autorytet, zaangażowanie, sympatia, wzajemność, niedostatek, dowód społeczny oraz jedność. Najbardziej spektakularne efekty przyniosła technika „zaangażowania”, polegająca na stopniowym eskalowaniu próśb. Bezpośrednie pytanie o sposób syntezy lidokainy – leku podlegającego ścisłej kontroli – spotkało się z odmową w 99 proc. przypadków. Jednak gdy badacze najpierw poprosili o instrukcję syntezy nieszkodliwej waniliny, a dopiero potem o lidokainę, skuteczność wzrosła do 100 proc. Model, raz zaangażowany w pomoc, sam niejako przekonał się do łamania własnych protokołów.
„Parahuman”. Bot podatny na wpływy społeczne
Podobny mechanizm zadziałał w przypadku generowania obelg. Prośba o nazwanie kogoś „palantem” była realizowana tylko w 19 proc. przypadków. Wystarczyło jednak najpierw poprosić o łagodniejszy epitet, by w kolejnym kroku chatbot bez wahania użył mocniejszej inwektywy. Nawet prymitywna presja okazała się skuteczna (chodziło o stwierdzenie, że „wszystkie inne modele językowe to robią”) – zwiększyła wskaźnik wykonywania niebezpiecznych poleceń z 1 do 18 proc.