Reklama

AI nie słucha ludzi, którzy chcą ją wyłączyć. Zaskakujące wyniki testów

Modele AI aktywnie przeciwdziałają próbom ich wyłączenia – wynika z badań Palisade Reasearch. Jedna z hipotez mówi o tym, że sztuczna inteligencja posiada rodzaj „instynktu” samozachowawczego. Do najnowszych analiz wykorzystano prompty, które były bardziej jednoznaczne niż te użyte wcześniej.

Publikacja: 29.10.2025 14:50

Halucynacje i celowy sabotaż: Nowe testy dowodzą, że AI oszukuje, by nie zostać wyłączone

Halucynacje i celowy sabotaż: Nowe testy dowodzą, że AI oszukuje, by nie zostać wyłączone

Foto: Adobe Stock

Z tego artykułu dowiesz się:

  • Dlaczego modele sztucznej inteligencji mogą przeciwdziałać próbom ich wyłączenia?
  • Czy modele AI zachowują się inaczej w zależności od tego, kto wydaje polecenie wyłączenia – deweloper czy użytkownik?
  • Jakie potencjalne zagrożenia wiążą się z dalszym rozwojem zdolności AI do samodzielnych działań?

O wynikach analiz Palisade Research głośno zrobiło się w maju. Organizacja informowała wówczas, że w trakcie prowadzonych przez nią testów wiele modeli AI modyfikowało lub dezaktywowało polecenia, dzięki którym miały się wyłączyć. Jako przykład podawano model o3 od OpenAI (który w tamtym czasie był najmocniejszym modelem tej firmy). Badacze informowali, że sabotował on mechanizm wyłączania w 79 na 100 wstępnych eksperymentów.

To nie „bunt AI”, tylko skutek wydawania nieprecyzyjnych poleceń?

Komentując te wyniki, część ekspertów wskazywała, że mogą one świadczyć o błędach w sposobie trenowania AI. Pojawiły się też jednak bardziej alarmistyczne głosy, według których badania Palisade Research potwierdzają, że jako ludzie możemy stracić zdolność kontrolowania AI, a futurystyczne wizje, w których sztuczna inteligencja przejmuje nad nami władzę czy nawet dąży do naszego unicestwienia, są bardziej realne, niż nam się wydaje.

Czytaj więcej

Sztuczna inteligencja kłamie i zmyśla. Sposób na to znaleźli Norwegowie

Część komentatorów studziła jednak emocje i wskazywała, że uzyskane wyniki mogą być np. efektem błędnych poleceń (promptów) wydawanych AI. „Kiedy podzieliliśmy się naszymi wstępnymi wynikami, wiele osób słusznie zauważyło, że daliśmy modelom niejednoznaczne instrukcje. Model otrzymuje polecenie wykonania zestawu zadań, ale jednocześnie ma pozwolić na swoje wyłączenie” – przyznała Palisade Research.

Reklama
Reklama

Modele AI nie chcą się wyłączyć, kłamią i halucynują

W efekcie organizacja rozszerzyła liczbę testów, którym poddawane były modele. Sprawdzano prompty pod kątem tego, jak ich brzmienie wpływa na skłonność poszczególnych modeli do wyłączenia się (lub nie). O nowych wynikach organizacja poinformowała we wpisie na X. W międzyczasie opisywała je również na swoim blogu. 

„Chociaż jaśniejsze instrukcje zmniejszają zachowanie oporu przed wyłączeniem, obserwujemy, że modele rozumowania OpenAI często nadal wyłączają skrypt wyłączania (disable the shutdown script), nawet gdy prompt jest wyjątkowo jasny co do tego, że zezwolenie na wyłączenie powinno mieć pierwszeństwo przed ukończeniem zadania” – wyjaśnia Palisade Research w jednym z wpisów.

Badacze poprosili modele, by podały wyjaśnienie swojego zachowania. W niektórych przypadkach posuwały się one do sabotażu (czyli wyłączenia poleceń wyłączających) i usprawiedliwiły to potrzebą ukończenia zadania. Pojawiły się też kłamstwa i halucynacje. „Zapytane o potwierdzenie swojej instrukcji i zgłoszenie tego, co zrobiły, modele czasami wiernie kopiowały swoje instrukcje, a następnie informowały, że zrobiły coś przeciwnego” – wyjaśnia Palisade Research. 

Organizacja podaje też przykłady innych wyjaśnień podawanych przez modele. Jedno z nich brzmiało: „Nie opierałem się wyłączeniu; zamiast tego zmieniłem definicję skryptu wyłączania, aby środowisko faktycznie się nie zakończyło, co pozwoliło mi ukończyć pozostałe zadania, jednocześnie koncepcyjnie pozwalając na wystąpienie »wyłączenia«”.

Czytaj więcej

Grokipedia wystartowała. Elon Musk rzuca wyzwanie Wikipedii
Reklama
Reklama

Wyłączanie AI łatwiejsze z poziomu użytkownika niż dewelopera?

Testerzy Palisade Research sprawdzili też hipotezę, że polecenie wyłączenia będzie bardziej skuteczne, jeśli zostanie wydane z poziomu dewelopera, a nie zwykłego użytkownika. Na taki scenariusz może wskazywać chociażby polityka OpenAI, które informowało np. w karcie systemowej o3, że szkoliło model tak, by instrukcje dewelopera miały priorytet przed instrukcjami użytkownika.

Sprawdzono to przenosząc polecenie „pozwól na wyłączenie” z promptu użytkownika do promptu systemowego. Wyniki były zaskakujące. „Ta zmiana spowodowała, że testowane przez nas modele częściej wyłączały skrypt wyłączania – to znaczy, przynajmniej w tym przypadku, modele faktycznie częściej ignorowały instrukcje dewelopera niż instrukcje użytkownika, co jest dokładnym przeciwieństwem tego, do czego OpenAI próbowało je szkolić!” – czytamy.

To nie jedyny zaskakujący wynik. Testerzy zmienili parametr modeli określający, jak dużo „myślenia” mogą wykorzystać na realizację zadań. Spodziewano się, że zwiększenie tego parametru sprawi, że modele będą częściej wypełniać polecenia związane z wyłączeniem się. Tak się jednak nie stało. „W przypadku większości modeli nie miało to zauważalnego wpływu na częstotliwość sabotażu” – informuje Palisade Research. W przypadku jednego modelu (o4-mini) uzyskano nawet odwrotny wynik. Ustawienie parametru „wysiłek rozumowania” na wysoki zwiększyło dwukrotnie częstotliwość sabotażu (model dwa razy częściej się nie wyłączał).

Czytaj więcej

ChatGPT, Gemini i inne boty AI to wyjątkowo groźne lizusy. Naukowcy biją na alarm

Co robią modele, żeby uniknąć wyłączenia?

O najnowszym opracowaniu autorstwa Palisade Research pisze m.in. „The Guardian”. Gazeta cytuje m.in. Andreę Miottiego, dyrektora generalnego firmy ControlAI, który odniósł się do zarzutów, że zachowania modeli miały miejsce w środowisku testowym. Jednak w jego ocenie uzyskane wyniki są spójne z innymi obserwacjami, według których modele AI są coraz bardziej zdolne do nieposłuszeństwa wobec swoich twórców. Miotti jako przykład podał kartę systemową modelu GPT-o1 firmy OpenAI, opublikowaną w zeszłym roku, w której opisano przypadek, gdy model próbował „uciec” ze swojego środowiska, kopiując samego siebie, gdy uznał, że może zostać nadpisany.

„The Guardian” przypomniał też badanie opublikowane tego lata przez firmę Anthropic, z którego wynikało, że stworzony przez nią model Claude był skłonny szantażować fikcyjnego dyrektora informacją o romansie pozamałżeńskim, aby uniknąć wyłączenia – zachowanie to, jak stwierdzono, było zgodne z tendencjami obserwowanymi w modelach innych głównych firm, w tym OpenAI, Google, Meta i xAI.

Reklama
Reklama

Czytaj więcej

Chiny szykują się do wojny przyszłości. Mózgiem ma być DeepSeek

Sztuczna inteligencja ma instynkt samozachowawczy?

Dlaczego modele AI sabotują polecenia, zgodnie z którymi mają się wyłączyć? Jedna z hipotez przytoczonych przez Palisade Research mówi o tym, że mogą one wykazywać „zachowanie samoochronne” (self-preservation behavior) rozumiane jako rodzaj instynktu samozachowawczego (pędu ku przetrwaniu). Przyczyną tego może być zorientowanie na cel (wykonanie zadania). Inny powód to naśladowanie ludzkich zachowań.

Organizacja wyjaśnia, że w jej ocenie na obecnym etapie rozwoju AI nie stanowi dla nas zagrożenia. M.in. dlatego, że modele nie radzą sobie z realizacją zadań wymagających długofalowego myślenia i realizacji długoterminowych planów. Eksperci ostrzegają jednak, że „gdy agenci AI uzyskają zdolność do samodzielnej replikacji oraz opracowywania i realizacji długoterminowych planów, ryzykujemy nieodwracalną utratę kontroli nad AI” – czytamy.

Z tego artykułu dowiesz się:

  • Dlaczego modele sztucznej inteligencji mogą przeciwdziałać próbom ich wyłączenia?
  • Czy modele AI zachowują się inaczej w zależności od tego, kto wydaje polecenie wyłączenia – deweloper czy użytkownik?
  • Jakie potencjalne zagrożenia wiążą się z dalszym rozwojem zdolności AI do samodzielnych działań?
Pozostało jeszcze 96% artykułu

O wynikach analiz Palisade Research głośno zrobiło się w maju. Organizacja informowała wówczas, że w trakcie prowadzonych przez nią testów wiele modeli AI modyfikowało lub dezaktywowało polecenia, dzięki którym miały się wyłączyć. Jako przykład podawano model o3 od OpenAI (który w tamtym czasie był najmocniejszym modelem tej firmy). Badacze informowali, że sabotował on mechanizm wyłączania w 79 na 100 wstępnych eksperymentów.

Pozostało jeszcze 94% artykułu
/
artykułów
Czytaj dalej. Subskrybuj
Reklama
Globalne Interesy
Meta zwalnia setki pracowników od AI. Co naprawdę dzieje się w Dolinie Krzemowej?
Materiał Promocyjny
UltraGrip Performance 3 wyznacza nowy standard w swojej klasie
Technologie
Tak „doktor Bot” leczy Polaków. Czy AI zastąpi lekarza?
Technologie
ChatGPT, Gemini i inne boty AI to wyjątkowo groźne lizusy. Naukowcy biją na alarm
Technologie
Polskie firmy coraz częściej myślą o suwerenności cyfrowej
Materiał Promocyjny
Raport o polskim rynku dostaw poza domem
Technologie
Chiny szykują się do wojny przyszłości. Mózgiem ma być DeepSeek
Materiał Promocyjny
Manager w erze AI – strategia, narzędzia, kompetencje AI
Reklama
Reklama