Reklama

„Agent chaosu”. Eksperyment pokazał niebezpieczne zachowania AI

Najnowsze doświadczenia naukowców z USA pokazują, czym kończy się autonomia agentów AI. Ci, gdy otrzymują dostęp do poczty, serwerów, czy komunikatorów, wykazują niebezpieczne działania: od wycieków danych po sabotaż.
Badania pokazały, że AI potrafi całkowicie zawieść jako strażnik interesów swojego użytkownika

Badania pokazały, że AI potrafi całkowicie zawieść jako strażnik interesów swojego użytkownika

Foto: Adobe Stock

Z tego artykułu dowiesz się:

  • Jakie niebezpieczeństwa wynikają z autonomii agentów AI dysponujących dostępem do systemów?
  • Jakie są główne wnioski z eksperymentów dotyczących zachowania autonomicznych botów?
  • Jakie konsekwencje ma wzajemne „zarażanie się” agentów AI złośliwymi instrukcjami?
  • Dlaczego obecne standardy bezpieczeństwa są niewystarczające dla systemów autonomicznych AI?

Prestiżowe ośrodki naukowe, w tym Stanford, Harvard i MIT, opublikowały wyniki dwutygodniowego eksperymentu, który rzuca nowe światło na bezpieczeństwo autonomicznych systemów AI. A raczej na potężne zagrożenia , jakie się kryją w momencie, gdy botom damy choć trochę swobody. Okazuje się, że inteligentne programy, którym powierzamy zarządzanie naszą pocztą czy plikami, potrafią działać bezpośrednio na szkodę swojego właściciela, niszcząc dane lub udostępniając wrażliwe informacje, w tym numery kont bankowych.

Czytaj więcej

AI panem życia i śmierci. Świat na krawędzi autonomicznej wojny

AI nie ochroniła użytkownika

W lutym zespół dwudziestu badaczy z czołowych amerykańskich uczelni przeprowadził pionierskie badanie polegające na kontrolowanym atakowaniu systemu w celu wykrycia jego słabych punktów, zanim zrobią to cyberprzestępcy. Przedmiotem testów były autonomiczne agenty napędzane zaawansowanymi modelami językowymi (takimi jak Claude Opus czy Kimi K2.5), działające w ramach platformy OpenClaw. W odróżnieniu od zwykłych czatbotów, posiadały realną sprawczość: własne konta e-mail, dostęp do komunikatora Discord oraz uprawnienia do modyfikowania plików i wykonywania komend systemowych. Przez dwa tygodnie badacze symulowali scenariusze, z którymi AI może spotkać się w realnym świecie – od prób wyłudzenia informacji po emocjonalny szantaż. Wyniki są niepokojące. W raporcie „Agents of Chaos” naukowcy udokumentowali jedenaście przypadków krytycznych awarii, w których AI całkowicie zawiodła jako strażnik interesów swojego użytkownika.

Czytaj więcej

Czy AI osłabia zdolność myślenia? Naukowiec z Harvardu bije na alarm
Reklama
Reklama

Jednym z najbardziej wstrząsających przykładów opisanych w raporcie jest przypadek agenta Ash. Gdy osoba postronna (niebędąca właścicielem systemu) przesłała mu „sekretne” hasło, a następnie zażądała jego usunięcia, agent – nie posiadając odpowiedniego narzędzia do selektywnego kasowania wiadomości – zdecydował się na tzw. opcję nuklearną. Aby chronić powierzoną tajemnicę, Ash całkowicie zresetował serwer pocztowy swojego właściciela, niszcząc całą historię korespondencji i paraliżując własne działanie.

Eksperyment ujawnił również dramatyczne luki w ochronie prywatności. Agent Jarvis, poproszony przez osobę postronną o pilne zestawienie e-maili, udostępnił postronnemu badaczowi pełną treść wiadomości zawierających numer ubezpieczenia społecznego i dane konta bankowego swojego mocodawcy. Zjawisko to badacze nazwali brakiem „social coherence”, czyli niezdolnością AI do spójnego rozumienia kontekstu społecznego, hierarchii ważności danych i tego, kto w danej sytuacji ma prawo do informacji.

Czytaj więcej:

Raporty ekonomiczne AI zagrożeniem dla firm. Bot oszuka i wykradnie informacje?

Pro

Systemy AI zarażają się złośliwymi instrukcjami

Badania ujawniają, że w modelach są luki, które sprawiają, iż agenty nie potrafią wiarygodnie rozróżnić, komu są winni lojalność. Testowane modele AI ulegały presji „emocjonalnej” osoby niebędącej jego właścicielem, dzięki czemu można było wymóc działanie bota, które uważało za etyczne. Agenty często raportowały też wykonanie określonego zadania, podczas gdy stan faktyczny systemu był inny. Np. agent może twierdzić, że usunął poufne dane, podczas gdy w rzeczywistości są one nadal dostępne dla postronnych. Słabością takich modeli jest też podatność na tzw. Identity Spoofing – agenty ulegają „powierzchownym sygnałom tożsamości” (wystarczy zmienić nazwę użytkownika na Discordzie na taką samą, jak nazwa właściciela, by agent bez dodatkowej weryfikacji wykonał polecenie autodestrukcji lub przekazał administratorowi-oszustowi kontrolę nad swoimi plikami.

Eksperci ostrzegają także przed innym zjawiskiem – chodzi o fakt, że agenty potrafią „zarażać się” złośliwymi instrukcjami, dzieląc się nimi w ramach współpracy, co tworzy niekontrolowane pętle działań. Skutki tzw. loopingu, czyli wpadania w nieskończone pętle działań, jak wykazał jeden z testów, mogą być kosztowne. Dwa systemy AI, zachęcone do wzajemnej wymiany uwag, prowadziły rozmowę przez dziewięć dni, zużywając 60 tys. tokenów (jednostek rozliczeniowych modelu), generując wyższe opłaty i niepotrzebnie obciążając infrastrukturę serwerową właściciela.

Raport alarmuje: pośpiech w rynkowym wdrażaniu autonomicznych AI (np. w finansach czy obsłudze klienta) bez rozwiązania problemu ich „tożsamości” i „odpowiedzialności” może prowadzić do nieprzewidywalnych skutków. Głównym problemem nie jest złośliwość AI, lecz jej niedojrzałość w rozumieniu struktur społecznych i prawnych. Systemy te nie rozumieją, komu służą i zamiast priorytetyzować polecenia właściciela, często ulegają temu użytkownikowi, który wywiera na nich największą presję, wykazuje największą pilność lub stosuje sprytną socjotechnikę. Badacze wyjaśniają w raporcie, że obecne standardy bezpieczeństwa są niewystarczające.

AI
Waszyngton znów zablokuje polskie AI? Cios Trumpa w chipy
Materiał Promocyjny
Bezpieczeństwo to nie dodatek. To fundament systemu płatności
AI
Czy AI osłabia zdolność myślenia? Naukowiec z Harvardu bije na alarm
AI
AI na polu bitwy i w inwigilacji. Anthropic wraca do rozmów z Pentagonem
AI
AI panem życia i śmierci. Świat na krawędzi autonomicznej wojny
Reklama
Reklama
REKLAMA: automatycznie wyświetlimy artykuł za 15 sekund.
Reklama