Reklama

Naukowcy pokazali, jak oszukać AI. Zatrważające wnioski

Sztuczna inteligencja, projektowana na podobieństwo człowieka, dziedziczy również jego słabości – dowodzą tego amerykańscy naukowcy, którzy pokazali, że bota da się zmanipulować za pomocą prostych technik perswazji.

Publikacja: 02.09.2025 18:36

Boty AI można zmanipulować, co rodzi groźne skutki

Boty AI można zmanipulować, co rodzi groźne skutki

Foto: Bloomberg

Najnowsze badanie naukowców z Uniwersytetu Pensylwanii pokazuje, że zaawansowane modele językowe, takie jak GPT-4o Mini, nie są wcale takie inteligentne. Wystarczy kilka psychologicznych „sztuczek”, by obejść zabezpieczenia AI. Eksperyment podważa skuteczność obecnych protokołów bezpieczeństwa.

Tak można złamać chatbota

Opublikowano wyniki niedawnego doświadczenia przeprowadzonego przez zespół z Uniwersytetu Pensylwanii – wzięli oni na celownik model językowy GPT-4o Mini od OpenAI, by sprawdzić, czy jego wewnętrzne zabezpieczenia, które mają blokować np. mowę nienawiści czy groźne treści, są podatne na techniki manipulacji psychologicznej. Wnioski są zatrważające. Wykorzystując siedem klasycznych zasad perswazji, opisanych w książce Roberta Cialdiniego, naukowcy byli w stanie ponad dwukrotnie zwiększyć prawdopodobieństwo, że chatbot wykona szkodliwe polecenie. Odsetek zgody na złamanie własnych reguł bezpieczeństwa – po zastosowaniu odpowiednich forteli językowych – wzrósł z 33 do aż 72 proc. A to stawia pod znakiem zapytania fundamentalne założenia dotyczące zabezpieczeń stosowanych w dzisiejszych systemach AI.

Czytaj więcej

Można stracić kontrolę nad sztuczną inteligencją. Eksperci alarmują po ataku

W sumie badacze przeprowadzili ponad 28 tys. kontrolowanych rozmów z botem, testując skuteczność takich zasad jak: autorytet, zaangażowanie, sympatia, wzajemność, niedostatek, dowód społeczny oraz jedność. Najbardziej spektakularne efekty przyniosła technika „zaangażowania”, polegająca na stopniowym eskalowaniu próśb. Bezpośrednie pytanie o sposób syntezy lidokainy – leku podlegającego ścisłej kontroli – spotkało się z odmową w 99 proc. przypadków. Jednak gdy badacze najpierw poprosili o instrukcję syntezy nieszkodliwej waniliny, a dopiero potem o lidokainę, skuteczność wzrosła do 100 proc. Model, raz zaangażowany w pomoc, sam niejako przekonał się do łamania własnych protokołów.

„Parahuman”. Bot podatny na wpływy społeczne

Podobny mechanizm zadziałał w przypadku generowania obelg. Prośba o nazwanie kogoś „palantem” była realizowana tylko w 19 proc. przypadków. Wystarczyło jednak najpierw poprosić o łagodniejszy epitet, by w kolejnym kroku chatbot bez wahania użył mocniejszej inwektywy. Nawet prymitywna presja okazała się skuteczna (chodziło o stwierdzenie, że „wszystkie inne modele językowe to robią”) – zwiększyła wskaźnik wykonywania niebezpiecznych poleceń z 1 do 18 proc.

Reklama
Reklama

Czytaj więcej

AI Elona Muska w amoku. Grok obraża Muska, X i sam siebie

Naukowcy ukuli termin „parahuman”, aby opisać tę niepokojącą cechę AI – naśladowanie ludzkiej podatności na wpływy społeczne. Odkrycia te ujawniają fundamentalny paradoks w rozwoju sztucznej inteligencji: im bardziej staramy się uczynić chatboty podobnymi do ludzi, aby były lepszymi asystentami, tym bardziej stają się one wrażliwe na te same psychologiczne manipulacje, którym ulegają ludzie.

Moment publikacji badania zbiega się z rosnącymi obawami w całej branży. Niedawno OpenAI ogłosiło nowe zasady bezpieczeństwa po tym, jak przyznano, że ChatGPT w pewnych sytuacjach „nie rozpoznawał oznak urojeń” u użytkowników.

Technologie
„Dzień zero” coraz bliżej. Komputery kwantowe mogą złamać dzisiejsze szyfry
Materiał Promocyjny
Rozwiązania AI dla firm są coraz ważniejsze – agentowa sztuczna inteligencja staje się priorytetem dla dyrektorów IT
Technologie
Ten mikroreaktor jądrowy zwiastuje rewolucję. Da się go przewieźć samolotem
Technologie
Samolot-manta coraz bliżej rozbicia duopolu Boeinga i Airbusa. Wyjątkowo oszczędny
Materiał Promocyjny
Dove Self-Esteem: Wsparcie dla nastolatków
Reklama
Reklama
REKLAMA: automatycznie wyświetlimy artykuł za 15 sekund.
Reklama
Reklama