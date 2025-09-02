Aktualizacja: 02.09.2025 19:11 Publikacja: 02.09.2025 18:36
Boty AI można zmanipulować, co rodzi groźne skutki
Foto: Bloomberg
Najnowsze badanie naukowców z Uniwersytetu Pensylwanii pokazuje, że zaawansowane modele językowe, takie jak GPT-4o Mini, nie są wcale takie inteligentne. Wystarczy kilka psychologicznych „sztuczek”, by obejść zabezpieczenia AI. Eksperyment podważa skuteczność obecnych protokołów bezpieczeństwa.
Opublikowano wyniki niedawnego doświadczenia przeprowadzonego przez zespół z Uniwersytetu Pensylwanii – wzięli oni na celownik model językowy GPT-4o Mini od OpenAI, by sprawdzić, czy jego wewnętrzne zabezpieczenia, które mają blokować np. mowę nienawiści czy groźne treści, są podatne na techniki manipulacji psychologicznej. Wnioski są zatrważające. Wykorzystując siedem klasycznych zasad perswazji, opisanych w książce Roberta Cialdiniego, naukowcy byli w stanie ponad dwukrotnie zwiększyć prawdopodobieństwo, że chatbot wykona szkodliwe polecenie. Odsetek zgody na złamanie własnych reguł bezpieczeństwa – po zastosowaniu odpowiednich forteli językowych – wzrósł z 33 do aż 72 proc. A to stawia pod znakiem zapytania fundamentalne założenia dotyczące zabezpieczeń stosowanych w dzisiejszych systemach AI.
Czytaj więcej
Czy można zaufać botom? Ryzyko rośnie, nie tylko z uwagi na tzw. halucynacje AI, ale też możliwoś...
W sumie badacze przeprowadzili ponad 28 tys. kontrolowanych rozmów z botem, testując skuteczność takich zasad jak: autorytet, zaangażowanie, sympatia, wzajemność, niedostatek, dowód społeczny oraz jedność. Najbardziej spektakularne efekty przyniosła technika „zaangażowania”, polegająca na stopniowym eskalowaniu próśb. Bezpośrednie pytanie o sposób syntezy lidokainy – leku podlegającego ścisłej kontroli – spotkało się z odmową w 99 proc. przypadków. Jednak gdy badacze najpierw poprosili o instrukcję syntezy nieszkodliwej waniliny, a dopiero potem o lidokainę, skuteczność wzrosła do 100 proc. Model, raz zaangażowany w pomoc, sam niejako przekonał się do łamania własnych protokołów.
Podobny mechanizm zadziałał w przypadku generowania obelg. Prośba o nazwanie kogoś „palantem” była realizowana tylko w 19 proc. przypadków. Wystarczyło jednak najpierw poprosić o łagodniejszy epitet, by w kolejnym kroku chatbot bez wahania użył mocniejszej inwektywy. Nawet prymitywna presja okazała się skuteczna (chodziło o stwierdzenie, że „wszystkie inne modele językowe to robią”) – zwiększyła wskaźnik wykonywania niebezpiecznych poleceń z 1 do 18 proc.
Czytaj więcej
Po najnowszej aktualizacji generatywna sztuczna inteligencja od xAI nie gryzie się w język. Bot,...
Naukowcy ukuli termin „parahuman”, aby opisać tę niepokojącą cechę AI – naśladowanie ludzkiej podatności na wpływy społeczne. Odkrycia te ujawniają fundamentalny paradoks w rozwoju sztucznej inteligencji: im bardziej staramy się uczynić chatboty podobnymi do ludzi, aby były lepszymi asystentami, tym bardziej stają się one wrażliwe na te same psychologiczne manipulacje, którym ulegają ludzie.
Moment publikacji badania zbiega się z rosnącymi obawami w całej branży. Niedawno OpenAI ogłosiło nowe zasady bezpieczeństwa po tym, jak przyznano, że ChatGPT w pewnych sytuacjach „nie rozpoznawał oznak urojeń” u użytkowników.
© Licencja na publikację
© ℗ Wszystkie prawa zastrzeżone
Źródło: rp.pl
Najnowsze badanie naukowców z Uniwersytetu Pensylwanii pokazuje, że zaawansowane modele językowe, takie jak GPT-4o Mini, nie są wcale takie inteligentne. Wystarczy kilka psychologicznych „sztuczek”, by obejść zabezpieczenia AI. Eksperyment podważa skuteczność obecnych protokołów bezpieczeństwa.
Zaskakujące metody wsparcia obywateli wprowadza Korea Południowa. Seniorom, oprócz pomocy pracownika socjalnego,...
Badacze z Korei Południowej opracowali nowatorski materiał, który pozwoli w przyszłości konstruować zmiennokszta...
Apokalipsa, zbawienie, prorocy i Antychryst – coraz częściej właśnie takim językiem naukowcy i szefowie firm tec...
W wyścigu AI nie liczy się tylko rozmiar. Nowa sztuczna inteligencja inspirowana mózgiem człowieka pobiła na gło...
Niepokojący trend wyłania się z najnowszego raportu ekonomistów z Uniwersytetu Stanford. Sztuczna inteligencja n...
Masz aktywną subskrypcję?
Zaloguj się lub wypróbuj za darmo
wydanie testowe.
nie masz konta w serwisie? Dołącz do nas