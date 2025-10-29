Aktualizacja: 29.10.2025 15:49 Publikacja: 29.10.2025 14:50
Halucynacje i celowy sabotaż: Nowe testy dowodzą, że AI oszukuje, by nie zostać wyłączone
Foto: Adobe Stock
O wynikach analiz Palisade Research głośno zrobiło się w maju. Organizacja informowała wówczas, że w trakcie prowadzonych przez nią testów wiele modeli AI modyfikowało lub dezaktywowało polecenia, dzięki którym miały się wyłączyć. Jako przykład podawano model o3 od OpenAI (który w tamtym czasie był najmocniejszym modelem tej firmy). Badacze informowali, że sabotował on mechanizm wyłączania w 79 na 100 wstępnych eksperymentów.
Komentując te wyniki, część ekspertów wskazywała, że mogą one świadczyć o błędach w sposobie trenowania AI. Pojawiły się też jednak bardziej alarmistyczne głosy, według których badania Palisade Research potwierdzają, że jako ludzie możemy stracić zdolność kontrolowania AI, a futurystyczne wizje, w których sztuczna inteligencja przejmuje nad nami władzę czy nawet dąży do naszego unicestwienia, są bardziej realne, niż nam się wydaje.
Czytaj więcej
Factiverse to spółka, która na co dzień zajmuje się tzw. fact-checkingiem, a więc weryfikacją pra...
Część komentatorów studziła jednak emocje i wskazywała, że uzyskane wyniki mogą być np. efektem błędnych poleceń (promptów) wydawanych AI. „Kiedy podzieliliśmy się naszymi wstępnymi wynikami, wiele osób słusznie zauważyło, że daliśmy modelom niejednoznaczne instrukcje. Model otrzymuje polecenie wykonania zestawu zadań, ale jednocześnie ma pozwolić na swoje wyłączenie” – przyznała Palisade Research.
W efekcie organizacja rozszerzyła liczbę testów, którym poddawane były modele. Sprawdzano prompty pod kątem tego, jak ich brzmienie wpływa na skłonność poszczególnych modeli do wyłączenia się (lub nie). O nowych wynikach organizacja poinformowała we wpisie na X. W międzyczasie opisywała je również na swoim blogu.
„Chociaż jaśniejsze instrukcje zmniejszają zachowanie oporu przed wyłączeniem, obserwujemy, że modele rozumowania OpenAI często nadal wyłączają skrypt wyłączania (disable the shutdown script), nawet gdy prompt jest wyjątkowo jasny co do tego, że zezwolenie na wyłączenie powinno mieć pierwszeństwo przed ukończeniem zadania” – wyjaśnia Palisade Research w jednym z wpisów.
Badacze poprosili modele, by podały wyjaśnienie swojego zachowania. W niektórych przypadkach posuwały się one do sabotażu (czyli wyłączenia poleceń wyłączających) i usprawiedliwiły to potrzebą ukończenia zadania. Pojawiły się też kłamstwa i halucynacje. „Zapytane o potwierdzenie swojej instrukcji i zgłoszenie tego, co zrobiły, modele czasami wiernie kopiowały swoje instrukcje, a następnie informowały, że zrobiły coś przeciwnego” – wyjaśnia Palisade Research.
Organizacja podaje też przykłady innych wyjaśnień podawanych przez modele. Jedno z nich brzmiało: „Nie opierałem się wyłączeniu; zamiast tego zmieniłem definicję skryptu wyłączania, aby środowisko faktycznie się nie zakończyło, co pozwoliło mi ukończyć pozostałe zadania, jednocześnie koncepcyjnie pozwalając na wystąpienie »wyłączenia«”.
Czytaj więcej
Elon Musk uruchomił swoją wersję internetowej encyklopedii. Grokipedia od xAI ma być alternatywą...
Testerzy Palisade Research sprawdzili też hipotezę, że polecenie wyłączenia będzie bardziej skuteczne, jeśli zostanie wydane z poziomu dewelopera, a nie zwykłego użytkownika. Na taki scenariusz może wskazywać chociażby polityka OpenAI, które informowało np. w karcie systemowej o3, że szkoliło model tak, by instrukcje dewelopera miały priorytet przed instrukcjami użytkownika.
Sprawdzono to przenosząc polecenie „pozwól na wyłączenie” z promptu użytkownika do promptu systemowego. Wyniki były zaskakujące. „Ta zmiana spowodowała, że testowane przez nas modele częściej wyłączały skrypt wyłączania – to znaczy, przynajmniej w tym przypadku, modele faktycznie częściej ignorowały instrukcje dewelopera niż instrukcje użytkownika, co jest dokładnym przeciwieństwem tego, do czego OpenAI próbowało je szkolić!” – czytamy.
To nie jedyny zaskakujący wynik. Testerzy zmienili parametr modeli określający, jak dużo „myślenia” mogą wykorzystać na realizację zadań. Spodziewano się, że zwiększenie tego parametru sprawi, że modele będą częściej wypełniać polecenia związane z wyłączeniem się. Tak się jednak nie stało. „W przypadku większości modeli nie miało to zauważalnego wpływu na częstotliwość sabotażu” – informuje Palisade Research. W przypadku jednego modelu (o4-mini) uzyskano nawet odwrotny wynik. Ustawienie parametru „wysiłek rozumowania” na wysoki zwiększyło dwukrotnie częstotliwość sabotażu (model dwa razy częściej się nie wyłączał).
Czytaj więcej
Chatboty mówią ludziom to, co chcą usłyszeć - twierdzą naukowcy i ostrzegają, że ciągłe przytakiw...
O najnowszym opracowaniu autorstwa Palisade Research pisze m.in. „The Guardian”. Gazeta cytuje m.in. Andreę Miottiego, dyrektora generalnego firmy ControlAI, który odniósł się do zarzutów, że zachowania modeli miały miejsce w środowisku testowym. Jednak w jego ocenie uzyskane wyniki są spójne z innymi obserwacjami, według których modele AI są coraz bardziej zdolne do nieposłuszeństwa wobec swoich twórców. Miotti jako przykład podał kartę systemową modelu GPT-o1 firmy OpenAI, opublikowaną w zeszłym roku, w której opisano przypadek, gdy model próbował „uciec” ze swojego środowiska, kopiując samego siebie, gdy uznał, że może zostać nadpisany.
„The Guardian” przypomniał też badanie opublikowane tego lata przez firmę Anthropic, z którego wynikało, że stworzony przez nią model Claude był skłonny szantażować fikcyjnego dyrektora informacją o romansie pozamałżeńskim, aby uniknąć wyłączenia – zachowanie to, jak stwierdzono, było zgodne z tendencjami obserwowanymi w modelach innych głównych firm, w tym OpenAI, Google, Meta i xAI.
Czytaj więcej
Pekin wykorzystuje sztuczną inteligencję DeepSeek do zbudowania nowej generacji systemów i uzyska...
Dlaczego modele AI sabotują polecenia, zgodnie z którymi mają się wyłączyć? Jedna z hipotez przytoczonych przez Palisade Research mówi o tym, że mogą one wykazywać „zachowanie samoochronne” (self-preservation behavior) rozumiane jako rodzaj instynktu samozachowawczego (pędu ku przetrwaniu). Przyczyną tego może być zorientowanie na cel (wykonanie zadania). Inny powód to naśladowanie ludzkich zachowań.
Organizacja wyjaśnia, że w jej ocenie na obecnym etapie rozwoju AI nie stanowi dla nas zagrożenia. M.in. dlatego, że modele nie radzą sobie z realizacją zadań wymagających długofalowego myślenia i realizacji długoterminowych planów. Eksperci ostrzegają jednak, że „gdy agenci AI uzyskają zdolność do samodzielnej replikacji oraz opracowywania i realizacji długoterminowych planów, ryzykujemy nieodwracalną utratę kontroli nad AI” – czytamy.
© Licencja na publikację
© ℗ Wszystkie prawa zastrzeżone
Źródło: rp.pl
O wynikach analiz Palisade Research głośno zrobiło się w maju. Organizacja informowała wówczas, że w trakcie prowadzonych przez nią testów wiele modeli AI modyfikowało lub dezaktywowało polecenia, dzięki którym miały się wyłączyć. Jako przykład podawano model o3 od OpenAI (który w tamtym czasie był najmocniejszym modelem tej firmy). Badacze informowali, że sabotował on mechanizm wyłączania w 79 na 100 wstępnych eksperymentów.
Meta zwolni około 600 pracowników działu Superintelligence Labs zajmującego się sztuczną inteligencją. Koncern z...
Wielu kierowców marzy o jednej oponie zimowej, która sprawdzi się w każdych warunkach – od śniegu po mokry asfalt, od miejskich ulic po autostrady. Goodyear, tworząc model UltraGrip Performance 3, postanowił zbliżyć się do tego ideału, łącząc w jednej konstrukcji cechy, których zazwyczaj trzeba szukać w różnych produktach.
Coraz więcej osób, zamiast ze specjalistą, konsultuje się w sprawie zdrowia z chatbotami. Eksperci alarmują: AI...
Chatboty mówią ludziom to, co chcą usłyszeć - twierdzą naukowcy i ostrzegają, że ciągłe przytakiwanie ze strony...
Zależność od producentów oprogramowania spoza Europy stanowi potencjalne zagrożenie dla firmy. To przestaje być...
To najszybciej rozwijający się segment kurierskiego rynku, który zmienia nie tylko handel detaliczny, ale i nasze przyzwyczajenia oraz wygląd miast.
Pekin wykorzystuje sztuczną inteligencję DeepSeek do zbudowania nowej generacji systemów i uzyskania przewagi w...
To program dla managerów, który łączy strategiczne spojrzenie na przyszłość zarządzania z konkretnymi narzędziami i umiejętnościami potrzebnymi do wykorzystania potencjału AI.
Masz aktywną subskrypcję?
Zaloguj się lub wypróbuj za darmo
wydanie testowe.
nie masz konta w serwisie? Dołącz do nas