Z tego artykułu dowiesz się:
- Dlaczego modele sztucznej inteligencji mogą przeciwdziałać próbom ich wyłączenia?
- Czy modele AI zachowują się inaczej w zależności od tego, kto wydaje polecenie wyłączenia – deweloper czy użytkownik?
- Jakie potencjalne zagrożenia wiążą się z dalszym rozwojem zdolności AI do samodzielnych działań?
O wynikach analiz Palisade Research głośno zrobiło się w maju. Organizacja informowała wówczas, że w trakcie prowadzonych przez nią testów wiele modeli AI modyfikowało lub dezaktywowało polecenia, dzięki którym miały się wyłączyć. Jako przykład podawano model o3 od OpenAI (który w tamtym czasie był najmocniejszym modelem tej firmy). Badacze informowali, że sabotował on mechanizm wyłączania w 79 na 100 wstępnych eksperymentów.
To nie „bunt AI”, tylko skutek wydawania nieprecyzyjnych poleceń?
Komentując te wyniki, część ekspertów wskazywała, że mogą one świadczyć o błędach w sposobie trenowania AI. Pojawiły się też jednak bardziej alarmistyczne głosy, według których badania Palisade Research potwierdzają, że jako ludzie możemy stracić zdolność kontrolowania AI, a futurystyczne wizje, w których sztuczna inteligencja przejmuje nad nami władzę czy nawet dąży do naszego unicestwienia, są bardziej realne, niż nam się wydaje.
Czytaj więcej
Factiverse to spółka, która na co dzień zajmuje się tzw. fact-checkingiem, a więc weryfikacją pra...
Część komentatorów studziła jednak emocje i wskazywała, że uzyskane wyniki mogą być np. efektem błędnych poleceń (promptów) wydawanych AI. „Kiedy podzieliliśmy się naszymi wstępnymi wynikami, wiele osób słusznie zauważyło, że daliśmy modelom niejednoznaczne instrukcje. Model otrzymuje polecenie wykonania zestawu zadań, ale jednocześnie ma pozwolić na swoje wyłączenie” – przyznała Palisade Research.