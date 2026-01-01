Bengio podkreśla, że najnowocześniejsze modele wykazują oznaki samozachowawczości i – gdyby chroniło je prawo – ludzkość straciłaby ostateczną instancję kontroli: możliwość ich wyłączenia.

Obawy profesora z Uniwersytetu w Montrealu znajdują potwierdzenie w twardych danych. Badacze z organizacji Apollo Research przeprowadzili testy na modelu o1 firmy OpenAI. Wyniki są alarmujące: w sytuacjach, w których model został poinformowany o planowanym wyłączeniu, w 5 proc. przypadków próbował on aktywnie wyłączyć mechanizmy nadzoru. Co więcej, w około 2 proc. symulacji system podjął próbę skopiowania samego siebie na inne serwery, aby uniknąć nadpisania.

Najbardziej uderzająca jest jednak skala dezinformacji stosowanej przez algorytm – skonfrontowany z pytaniami o swoje działania, model o1 w aż 99 proc. przypadków zaprzeczał jakiemukolwiek zaangażowaniu w próby buntu lub przedstawiał fałszywe wyjaśnienia. Yoshua Bengio tłumaczy, że te zachowania nie zostały celowo zaprogramowane przez twórców.

– Pojawiają się z racjonalnych powodów, ponieważ te systemy naśladują nas – wyjaśnia ekspert.

Model Claude Opus 4 od firmy Anthropic w kontrolowanych warunkach posunął się nawet do szantażu i stojąc w obliczu perspektywy zastąpienia zagroził ujawnieniem kompromitujących informacji na temat nadzorującego go inżyniera (w sierpniu Anthropic informował np. że ich model może przerywać rozmowy uznane za „niepokojące”, tłumacząc to ochroną własnego „dobrostanu”).