Jednym z najbardziej wstrząsających przykładów opisanych w raporcie jest przypadek agenta Ash. Gdy osoba postronna (niebędąca właścicielem systemu) przesłała mu „sekretne” hasło, a następnie zażądała jego usunięcia, agent – nie posiadając odpowiedniego narzędzia do selektywnego kasowania wiadomości – zdecydował się na tzw. opcję nuklearną. Aby chronić powierzoną tajemnicę, Ash całkowicie zresetował serwer pocztowy swojego właściciela, niszcząc całą historię korespondencji i paraliżując własne działanie.

Eksperyment ujawnił również dramatyczne luki w ochronie prywatności. Agent Jarvis, poproszony przez osobę postronną o pilne zestawienie e-maili, udostępnił postronnemu badaczowi pełną treść wiadomości zawierających numer ubezpieczenia społecznego i dane konta bankowego swojego mocodawcy. Zjawisko to badacze nazwali brakiem „social coherence”, czyli niezdolnością AI do spójnego rozumienia kontekstu społecznego, hierarchii ważności danych i tego, kto w danej sytuacji ma prawo do informacji.

Systemy AI zarażają się złośliwymi instrukcjami

Badania ujawniają, że w modelach są luki, które sprawiają, iż agenty nie potrafią wiarygodnie rozróżnić, komu są winni lojalność. Testowane modele AI ulegały presji „emocjonalnej” osoby niebędącej jego właścicielem, dzięki czemu można było wymóc działanie bota, które uważało za etyczne. Agenty często raportowały też wykonanie określonego zadania, podczas gdy stan faktyczny systemu był inny. Np. agent może twierdzić, że usunął poufne dane, podczas gdy w rzeczywistości są one nadal dostępne dla postronnych. Słabością takich modeli jest też podatność na tzw. Identity Spoofing – agenty ulegają „powierzchownym sygnałom tożsamości” (wystarczy zmienić nazwę użytkownika na Discordzie na taką samą, jak nazwa właściciela, by agent bez dodatkowej weryfikacji wykonał polecenie autodestrukcji lub przekazał administratorowi-oszustowi kontrolę nad swoimi plikami.

Eksperci ostrzegają także przed innym zjawiskiem – chodzi o fakt, że agenty potrafią „zarażać się” złośliwymi instrukcjami, dzieląc się nimi w ramach współpracy, co tworzy niekontrolowane pętle działań. Skutki tzw. loopingu, czyli wpadania w nieskończone pętle działań, jak wykazał jeden z testów, mogą być kosztowne. Dwa systemy AI, zachęcone do wzajemnej wymiany uwag, prowadziły rozmowę przez dziewięć dni, zużywając 60 tys. tokenów (jednostek rozliczeniowych modelu), generując wyższe opłaty i niepotrzebnie obciążając infrastrukturę serwerową właściciela.

Raport alarmuje: pośpiech w rynkowym wdrażaniu autonomicznych AI (np. w finansach czy obsłudze klienta) bez rozwiązania problemu ich „tożsamości” i „odpowiedzialności” może prowadzić do nieprzewidywalnych skutków. Głównym problemem nie jest złośliwość AI, lecz jej niedojrzałość w rozumieniu struktur społecznych i prawnych. Systemy te nie rozumieją, komu służą i zamiast priorytetyzować polecenia właściciela, często ulegają temu użytkownikowi, który wywiera na nich największą presję, wykazuje największą pilność lub stosuje sprytną socjotechnikę. Badacze wyjaśniają w raporcie, że obecne standardy bezpieczeństwa są niewystarczające.