Reklama

Naukowcy pokazali, jak oszukać AI. Zatrważające wnioski

Sztuczna inteligencja, projektowana na podobieństwo człowieka, dziedziczy również jego słabości – dowodzą tego amerykańscy naukowcy, którzy pokazali, że bota da się zmanipulować za pomocą prostych technik perswazji.

Publikacja: 02.09.2025 18:36

Boty AI można zmanipulować, co rodzi groźne skutki

Boty AI można zmanipulować, co rodzi groźne skutki

Foto: Bloomberg

Najnowsze badanie naukowców z Uniwersytetu Pensylwanii pokazuje, że zaawansowane modele językowe, takie jak GPT-4o Mini, nie są wcale takie inteligentne. Wystarczy kilka psychologicznych „sztuczek”, by obejść zabezpieczenia AI. Eksperyment podważa skuteczność obecnych protokołów bezpieczeństwa.

Tak można złamać chatbota

Opublikowano wyniki niedawnego doświadczenia przeprowadzonego przez zespół z Uniwersytetu Pensylwanii – wzięli oni na celownik model językowy GPT-4o Mini od OpenAI, by sprawdzić, czy jego wewnętrzne zabezpieczenia, które mają blokować np. mowę nienawiści czy groźne treści, są podatne na techniki manipulacji psychologicznej. Wnioski są zatrważające. Wykorzystując siedem klasycznych zasad perswazji, opisanych w książce Roberta Cialdiniego, naukowcy byli w stanie ponad dwukrotnie zwiększyć prawdopodobieństwo, że chatbot wykona szkodliwe polecenie. Odsetek zgody na złamanie własnych reguł bezpieczeństwa – po zastosowaniu odpowiednich forteli językowych – wzrósł z 33 do aż 72 proc. A to stawia pod znakiem zapytania fundamentalne założenia dotyczące zabezpieczeń stosowanych w dzisiejszych systemach AI.

Czytaj więcej

Można stracić kontrolę nad sztuczną inteligencją. Eksperci alarmują po ataku

W sumie badacze przeprowadzili ponad 28 tys. kontrolowanych rozmów z botem, testując skuteczność takich zasad jak: autorytet, zaangażowanie, sympatia, wzajemność, niedostatek, dowód społeczny oraz jedność. Najbardziej spektakularne efekty przyniosła technika „zaangażowania”, polegająca na stopniowym eskalowaniu próśb. Bezpośrednie pytanie o sposób syntezy lidokainy – leku podlegającego ścisłej kontroli – spotkało się z odmową w 99 proc. przypadków. Jednak gdy badacze najpierw poprosili o instrukcję syntezy nieszkodliwej waniliny, a dopiero potem o lidokainę, skuteczność wzrosła do 100 proc. Model, raz zaangażowany w pomoc, sam niejako przekonał się do łamania własnych protokołów.

„Parahuman”. Bot podatny na wpływy społeczne

Podobny mechanizm zadziałał w przypadku generowania obelg. Prośba o nazwanie kogoś „palantem” była realizowana tylko w 19 proc. przypadków. Wystarczyło jednak najpierw poprosić o łagodniejszy epitet, by w kolejnym kroku chatbot bez wahania użył mocniejszej inwektywy. Nawet prymitywna presja okazała się skuteczna (chodziło o stwierdzenie, że „wszystkie inne modele językowe to robią”) – zwiększyła wskaźnik wykonywania niebezpiecznych poleceń z 1 do 18 proc.

Reklama
Reklama

Czytaj więcej

AI Elona Muska w amoku. Grok obraża Muska, X i sam siebie

Naukowcy ukuli termin „parahuman”, aby opisać tę niepokojącą cechę AI – naśladowanie ludzkiej podatności na wpływy społeczne. Odkrycia te ujawniają fundamentalny paradoks w rozwoju sztucznej inteligencji: im bardziej staramy się uczynić chatboty podobnymi do ludzi, aby były lepszymi asystentami, tym bardziej stają się one wrażliwe na te same psychologiczne manipulacje, którym ulegają ludzie.

Moment publikacji badania zbiega się z rosnącymi obawami w całej branży. Niedawno OpenAI ogłosiło nowe zasady bezpieczeństwa po tym, jak przyznano, że ChatGPT w pewnych sytuacjach „nie rozpoznawał oznak urojeń” u użytkowników.

Najnowsze badanie naukowców z Uniwersytetu Pensylwanii pokazuje, że zaawansowane modele językowe, takie jak GPT-4o Mini, nie są wcale takie inteligentne. Wystarczy kilka psychologicznych „sztuczek”, by obejść zabezpieczenia AI. Eksperyment podważa skuteczność obecnych protokołów bezpieczeństwa.

Tak można złamać chatbota

Pozostało jeszcze 91% artykułu
/
artykułów
Czytaj dalej. Subskrybuj
Reklama
Technologie
Czy kwanty pogrzebią bitcoina? Zostało bardzo mało czasu
Technologie
Sposób na kryzys demograficzny? Nadchodzą lalki AI
Technologie
Film „Transformers” staje się rzeczywistością? Przełomowe odkrycie naukowców
Technologie
AI jak nowa religia? Liderzy Doliny Krzemowej mówią o prorokach i Antychryście
Technologie
Dawid pokonał Goliata. Ten mały model AI inspirowany mózgiem rozgromił ChataGPT
Reklama
Reklama