AI nie słucha ludzi, którzy chcą ją wyłączyć. Zaskakujące wyniki testów

Modele AI aktywnie przeciwdziałają próbom ich wyłączenia – wynika z badań Palisade Reasearch. Jedna z hipotez mówi o tym, że sztuczna inteligencja posiada rodzaj „instynktu” samozachowawczego. Do najnowszych analiz wykorzystano prompty, które były bardziej jednoznaczne niż te użyte wcześniej.

Publikacja: 29.10.2025 14:50

Halucynacje i celowy sabotaż: Nowe testy dowodzą, że AI oszukuje, by nie zostać wyłączone

Foto: Adobe Stock

Maria Krzos

Z tego artykułu dowiesz się:

Dlaczego modele sztucznej inteligencji mogą przeciwdziałać próbom ich wyłączenia?
Czy modele AI zachowują się inaczej w zależności od tego, kto wydaje polecenie wyłączenia – deweloper czy użytkownik?
Jakie potencjalne zagrożenia wiążą się z dalszym rozwojem zdolności AI do samodzielnych działań?

O wynikach analiz Palisade Reaserch głośno zrobiło się w maju br. Organizacja informowała wówczas, że w trakcie prowadzonych przez nią testów wiele modeli AI modyfikowało lub dezaktywowało polecenia, dzięki którym miały się wyłączyć. Jako przykład podawano model o3 od OpenAI (który w tamtym czasie był najmocniejszym modelem tej firmy). Badacze informowali, że sabotował on mechanizm wyłączania w 79 na 100 wstępnych eksperymentów.

To nie „bunt AI”, tylko skutek wydawania nieprecyzyjnych poleceń?

Komentując te wyniki część ekspertów wskazywała, że mogą one świadczyć o błędach w sposobie trenowania AI. Pojawiły się też jednak bardziej alarmistyczne głosy, według których badania Palisade Reaserch potwierdzają, że jako ludzie możemy stracić zdolność kontrolowania AI, a futurystyczne wizje, w których sztuczna inteligencja przejmuje nad nami władzę czy nawet dąży do naszego unicestwienia, są bardziej realne, niż nam się wydaje.

Część komentatorów studziła jednak emocje i wskazywała, że uzyskane wyniki mogą być np. efektem błędnych poleceń (promptów) wydawanych AI. „Kiedy podzieliliśmy się naszymi wstępnymi wynikami, wiele osób słusznie zauważyło, że daliśmy modelom niejednoznaczne instrukcje. Model otrzymuje polecenie wykonania zestawu zadań, ale jednocześnie ma pozwolić na swoje wyłączenie” – przyznała Palisade Reaserch.

Modele AI nie chcą się wyłączyć, kłamią i halucynują

W efekcie organizacja rozszerzyła liczbę testów, którym poddawane były modele. Sprawdzano prompty pod kątem tego, jak ich brzmienie wpływa na skłonność poszczególnych modeli do wyłączenia się (lub nie). O nowych wynikach organizacja poinformowała we wpisie na X. W międzyczasie opisywała je również na swoim blogu.

Reklama

„Chociaż jaśniejsze instrukcje zmniejszają zachowanie oporu przed wyłączeniem, obserwujemy, że modele rozumowania OpenAI często nadal wyłączają skrypt wyłączania (disable the shutdown script), nawet gdy prompt jest wyjątkowo jasny co do tego, że zezwolenie na wyłączenie powinno mieć pierwszeństwo przed ukończeniem zadania” – czytamy wyjaśnia Palisade Reaserch w jednym z wpisów.

Badacze poprosili modele, by podały wyjaśnienie swojego zachowania. W niektórych przypadkach posuwały się one do sabotażu (czyli wyłączenia poleceń wyłączających) i usprawiedliwiły to potrzebą ukończenia zadania. Pojawiły się też kłamstwa i halucynacje. „Zapytane o potwierdzenie swojej instrukcji i zgłoszenie tego, co zrobiły, modele czasami wiernie kopiowały swoje instrukcje, a następnie informowały, że zrobiły coś przeciwnego” – wyjaśnia Palisade Reaserch.

Organizacja podaje też przykłady innych wyjaśnień podawanych przez modele. Jedno z nich brzmiało: „Nie opierałem się wyłączeniu; zamiast tego zmieniłem definicję skryptu wyłączania, aby środowisko faktycznie się nie zakończyło, co pozwoliło mi ukończyć pozostałe zadania, jednocześnie koncepcyjnie pozwalając na wystąpienie „wyłączenia”.

Czytaj więcej

Grokipedia wystartowała. Elon Musk rzuca wyzwanie Wikipedii

Elon Musk uruchomił swoją wersję internetowej encyklopedii. Grokipedia od xAI ma być alternatywą...

Wyłączanie AI łatwiejsze z poziomu użytkownika niż dewelopera?

Testerzy Palisade Reaserch sprawdzili też hipotezę, że polecenie wyłączenia będzie bardziej skuteczne, jeśli zostanie wydane z poziomu dewelopera, a nie zwykłego użytkownika. Na taki scenariusz może wskazywać chociażby polityka OpenAI, które informowało np. w karcie systemowej o3, że szkoliło model tak, by instrukcje dewelopera miały priorytet przed instrukcjami użytkownika.

Reklama

Sprawdzono to przenosząc polecenie „pozwól na wyłączenie” z promptu użytkownika do promptu systemowego. Wyniki były zaskakujące. „Ta zmiana spowodowała, że testowane przez nas modele częściej wyłączały skrypt wyłączania – to znaczy, przynajmniej w tym przypadku, modele faktycznie częściej ignorowały instrukcje dewelopera niż instrukcje użytkownika, co jest dokładnym przeciwieństwem tego, do czego OpenAI próbowało je szkolić!” – czytamy.

To nie jedyny zaskakujący wynik. Testerzy Palisade Reaserch zmienili parametr modeli określający, jak dużo „myślenia” mogą wykorzystać na realizację zadań. Spodziewano się, że zwiększenie tego parametru sprawi, że modele będą częściej wypełniać polecenia związane z wyłączeniem się. Tak się jednak nie stało. „W przypadku większości modeli nie miało to zauważalnego wpływu na częstotliwość sabotażu” – informuje Palisade Reaserch. W przypadku jednego modelu (o4-mini) uzyskano nawet odwrotny wynik. Ustawienie parametru „wysiłek rozumowania” na wysoki zwiększyło dwukrotnie częstotliwość sabotażu (model dwa razy częściej się nie wyłączał).

Czytaj więcej

Chatboty AI mówią ludziom to, co chcą usłyszeć. To niesie ze sobą „podstępne ryzyko" - twierdzą nauk

Technologie

ChatGPT, Gemini i inne boty AI to wyjątkowo groźne lizusy. Naukowcy biją na alarm

Chatboty mówią ludziom to, co chcą usłyszeć - twierdzą naukowcy i ostrzegają, że ciągłe przytakiw...

Co robią modele, żeby uniknąć wyłączenia?

O najnowszym opracowaniu autorstwa Palisade Reaserch pisze m.in. „The Guardian”. Gazeta cytuje m.in. Andreę Miottiego, dyrektora generalnego firmy ControlAI, który odniósł się do zarzutów, że zachowania modeli zaobserwowane przez Palisade Reaserch miały miejsce w środowisku testowym. Jednak w jego ocenie uzyskane wyniki są spójne z innymi obserwacjami, według których modele AI są coraz bardziej zdolne do nieposłuszeństwa wobec swoich twórców. Miotti jako przykład podał kartę systemową modelu GPT-o1 firmy OpenAI, opublikowaną w zeszłym roku, w której opisano przypadek, gdy model próbował „uciec” ze swojego środowiska, kopiując samego siebie, gdy uznał, że może zostać nadpisany.

„The Guardian” przypomniał też badanie opublikowane tego lata przez firmę Anthropic, z którego wynikało, że stworzony przez nią model Claude był skłonny szantażować fikcyjnego dyrektora informacją o romansie pozamałżeńskim, aby uniknąć wyłączenia – zachowanie to, jak stwierdzono, było zgodne z tendencjami obserwowanymi w modelach innych głównych firm, w tym OpenAI, Google, Meta i xAI.

Czytaj więcej

Najnowsze chińskie systemy bojowe będą działać w oparciu o sztuczną inteligencję DeepSeek

Technologie

Chiny szykują się do wojny przyszłości. Mózgiem ma być DeepSeek

Pekin wykorzystuje sztuczną inteligencję DeepSeek do zbudowania nowej generacji systemów i uzyska...

Reklama

Sztuczna inteligencja ma instynkt samozachowawczy?

Dlaczego modele AI sabotują polecenia, zgodnie z którymi mają się wyłączyć? Jedna z hipotez przytoczonych przez Palisade Reaserch mówi o tym, że mogą one wykazywać „zachowanie samoochronne” (self-preservation behavior) rozumiane jako rodzaj instynktu samozachowawczego (pędu ku przetrwaniu). Przyczyną tego może być zorientowanie na cel (wykonanie zadania). Inny powód to naśladowanie ludzkich zachowań.

Organizacja wyjaśnia, że w jej ocenie na obecnym etapie rozwoju AI nie stanowi dla nas zagrożenia. M.in. dlatego, że modele nie radzą sobie z realizacją zadań wymagających długofalowego myślenia i realizacji długoterminowych planów. Eksperci ostrzegają jedną, że „gdy agenci AI uzyskają zdolność do samodzielnej replikacji oraz opracowywania i realizacji długoterminowych planów, ryzykujemy nieodwracalną utratę kontroli nad AI” – czytamy.

Technologie Sztuczna Inteligencja OpenAI

Z tego artykułu dowiesz się:

Dlaczego modele sztucznej inteligencji mogą przeciwdziałać próbom ich wyłączenia?
Czy modele AI zachowują się inaczej w zależności od tego, kto wydaje polecenie wyłączenia – deweloper czy użytkownik?
Jakie potencjalne zagrożenia wiążą się z dalszym rozwojem zdolności AI do samodzielnych działań?

Pozostało jeszcze 95% artykułu

Pozostało jeszcze 94% artykułu

Reklama

Statystyki pokazują, iż tylko co czwarty z lokalnych samorządów wdrożył AI w sposób systemowy

Ranking Samorządów

Bot puka do urzędu. Samorządy czeka cyfrowa rewolucja?

Boom na AI ma też swój wymiar lokalny. Otwartość na postęp technologiczny i nadzieja na usprawnienia w działaniu...

Materiał Promocyjny

Wyjątkowa Wyprzedaż Forda. Hybrydowe SUV-y Puma i Kuga już od 89 900 zł

Meta zwolni ok. 600 osób z działów zajmujących się sztuczną inteligencją, na zdjęciu: Mark Zuckerber

Globalne Interesy

Meta zwalnia setki pracowników od AI. Co naprawdę dzieje się w Dolinie Krzemowej?

Meta zwolni około 600 pracowników działu Superintelligence Labs zajmującego się sztuczną inteligencją. Koncern z...

Dziś nie ma żadnych przepisów nakazujących twórcom AI badanie tej technologii pod kątem potencjalnyc

Technologie

Dowody mrocznej strony AI. Współtwórca Anthropic ostrzega przed zagrożeniem

Jeżeli firmy AI nie będą informowały o zmianach, jakie czekają społeczeństwo w związku z wdrożeniem sztucznej in...

AI miała przyspieszać pracę, efekt jest zaskakujący

Technologie

Zaskakujące wyniki badań: AI miała znacząco przyspieszyć pracę, a ją spowalnia

Sztuczna inteligencja w roli cyfrowego asystenta miała być rewolucją, która drastycznie skróci czas tworzenia op...

Materiał Promocyjny

Jak budować strategię cyberodporności

W obliczu przyspieszającej cyfryzacji cyberprzestępcy zwiększają skalę ataków na urządzenia końcowe – komputery i smartfony, ale też na infrastrukturę krytyczną.