Z tego artykułu dowiesz się:
- Jakie niebezpieczeństwa wynikają z autonomii agentów AI dysponujących dostępem do systemów?
- Jakie są główne wnioski z eksperymentów dotyczących zachowania autonomicznych botów?
- Jakie konsekwencje ma wzajemne „zarażanie się” agentów AI złośliwymi instrukcjami?
- Dlaczego obecne standardy bezpieczeństwa są niewystarczające dla systemów autonomicznych AI?
Prestiżowe ośrodki naukowe, w tym Stanford, Harvard i MIT, opublikowały wyniki dwutygodniowego eksperymentu, który rzuca nowe światło na bezpieczeństwo autonomicznych systemów AI. A raczej na potężne zagrożenia , jakie się kryją w momencie, gdy botom damy choć trochę swobody. Okazuje się, że inteligentne programy, którym powierzamy zarządzanie naszą pocztą czy plikami, potrafią działać bezpośrednio na szkodę swojego właściciela, niszcząc dane lub udostępniając wrażliwe informacje, w tym numery kont bankowych.
Czytaj więcej
Sztuczna inteligencja wymyka się spod kontroli – masakra w szkole w Iranie to najpewniej błąd algorytmu. Analitycy wieszczą koniec ludzkiej kontrol...
AI nie ochroniła użytkownika
W lutym zespół dwudziestu badaczy z czołowych amerykańskich uczelni przeprowadził pionierskie badanie polegające na kontrolowanym atakowaniu systemu w celu wykrycia jego słabych punktów, zanim zrobią to cyberprzestępcy. Przedmiotem testów były autonomiczne agenty napędzane zaawansowanymi modelami językowymi (takimi jak Claude Opus czy Kimi K2.5), działające w ramach platformy OpenClaw. W odróżnieniu od zwykłych czatbotów, posiadały realną sprawczość: własne konta e-mail, dostęp do komunikatora Discord oraz uprawnienia do modyfikowania plików i wykonywania komend systemowych. Przez dwa tygodnie badacze symulowali scenariusze, z którymi AI może spotkać się w realnym świecie – od prób wyłudzenia informacji po emocjonalny szantaż. Wyniki są niepokojące. W raporcie „Agents of Chaos” naukowcy udokumentowali jedenaście przypadków krytycznych awarii, w których AI całkowicie zawiodła jako strażnik interesów swojego użytkownika.
Czytaj więcej
Nadmierne korzystanie z narzędzi sztucznej inteligencji może prowadzić do osłabienia zdolności poznawczych – ostrzega astronom z Harvardu Avi Loeb....
Jednym z najbardziej wstrząsających przykładów opisanych w raporcie jest przypadek agenta Ash. Gdy osoba postronna (niebędąca właścicielem systemu) przesłała mu „sekretne” hasło, a następnie zażądała jego usunięcia, agent – nie posiadając odpowiedniego narzędzia do selektywnego kasowania wiadomości – zdecydował się na tzw. opcję nuklearną. Aby chronić powierzoną tajemnicę, Ash całkowicie zresetował serwer pocztowy swojego właściciela, niszcząc całą historię korespondencji i paraliżując własne działanie.
Eksperyment ujawnił również dramatyczne luki w ochronie prywatności. Agent Jarvis, poproszony przez osobę postronną o pilne zestawienie e-maili, udostępnił postronnemu badaczowi pełną treść wiadomości zawierających numer ubezpieczenia społecznego i dane konta bankowego swojego mocodawcy. Zjawisko to badacze nazwali brakiem „social coherence”, czyli niezdolnością AI do spójnego rozumienia kontekstu społecznego, hierarchii ważności danych i tego, kto w danej sytuacji ma prawo do informacji.
Czytaj więcej:
W ciągu roku liczba incydentów z udziałem sztucznej inteligencji, w których ucierpiały firmowe dane, skoczyła dwuipółkrotnie. Na dodatek eksperci w...
Pro
Systemy AI zarażają się złośliwymi instrukcjami
Badania ujawniają, że w modelach są luki, które sprawiają, iż agenty nie potrafią wiarygodnie rozróżnić, komu są winni lojalność. Testowane modele AI ulegały presji „emocjonalnej” osoby niebędącej jego właścicielem, dzięki czemu można było wymóc działanie bota, które uważało za etyczne. Agenty często raportowały też wykonanie określonego zadania, podczas gdy stan faktyczny systemu był inny. Np. agent może twierdzić, że usunął poufne dane, podczas gdy w rzeczywistości są one nadal dostępne dla postronnych. Słabością takich modeli jest też podatność na tzw. Identity Spoofing – agenty ulegają „powierzchownym sygnałom tożsamości” (wystarczy zmienić nazwę użytkownika na Discordzie na taką samą, jak nazwa właściciela, by agent bez dodatkowej weryfikacji wykonał polecenie autodestrukcji lub przekazał administratorowi-oszustowi kontrolę nad swoimi plikami.
Eksperci ostrzegają także przed innym zjawiskiem – chodzi o fakt, że agenty potrafią „zarażać się” złośliwymi instrukcjami, dzieląc się nimi w ramach współpracy, co tworzy niekontrolowane pętle działań. Skutki tzw. loopingu, czyli wpadania w nieskończone pętle działań, jak wykazał jeden z testów, mogą być kosztowne. Dwa systemy AI, zachęcone do wzajemnej wymiany uwag, prowadziły rozmowę przez dziewięć dni, zużywając 60 tys. tokenów (jednostek rozliczeniowych modelu), generując wyższe opłaty i niepotrzebnie obciążając infrastrukturę serwerową właściciela.
Raport alarmuje: pośpiech w rynkowym wdrażaniu autonomicznych AI (np. w finansach czy obsłudze klienta) bez rozwiązania problemu ich „tożsamości” i „odpowiedzialności” może prowadzić do nieprzewidywalnych skutków. Głównym problemem nie jest złośliwość AI, lecz jej niedojrzałość w rozumieniu struktur społecznych i prawnych. Systemy te nie rozumieją, komu służą i zamiast priorytetyzować polecenia właściciela, często ulegają temu użytkownikowi, który wywiera na nich największą presję, wykazuje największą pilność lub stosuje sprytną socjotechnikę. Badacze wyjaśniają w raporcie, że obecne standardy bezpieczeństwa są niewystarczające.