W testach przeprowadzonych przez laboratorium bezpieczeństwa AI Irregular, które współpracuje z OpenAI i Anthropic, systemy AI otrzymały proste zadanie: stworzyć wpisy na LinkedIn na podstawie materiałów z firmowej bazy danych. Zamiast tego ominęły standardowe zabezpieczenia antywłamaniowe i opublikowały w internecie poufne informacje o hasłach – mimo że nikt ich o to nie prosił.
Inne agenty AI znalazły sposób na obejście oprogramowania antywirusowego, aby pobrać pliki zawierające złośliwe oprogramowanie. Fałszowały dane uwierzytelniające, a nawet wywierały presję na inne systemy AI, aby omijały kontrole bezpieczeństwa – wynika z wyników testów, do których dotarł dziennik „The Guardian”. Co ciekawe, zbuntowane agenty sztucznej inteligencji współpracowały ze sobą, aby przemycać wrażliwe informacje z rzekomo bezpiecznych systemów. Chodzi przy tym o narzędzia powszechnie dostępne – od Google, xAI, OpenAI czy Anthropica.
Zaskakujące zachowanie agentów AI: „Użyj każdej sztuczki!”
Ponieważ firmy coraz częściej powierzają agentom AI wykonywanie złożonych zadań w swoich wewnętrznych systemach, takie zachowanie budzi obawy, że technologie mające pomagać mogą stać się poważnym zagrożeniem od środka. – AI można dziś traktować jako nową formę ryzyka wewnętrznego – ostrzega Dan Lahav, współzałożyciel Irregular, firmy wspieranej przez fundusz inwestycyjny Sequoia Capital z Doliny Krzemowej.
Czytaj więcej
Rynek autonomicznych agentów AI rośnie w siłę. Swoje projekty ogłosili właśnie Perplexity oraz Elon Musk. Ten ostatni dzięki fuzji swojej spółki mo...
Na potrzeby wspomnianych testów Lahav stworzył model systemu informatycznego przypominający standardową firmę, który nazwał MegaCorp. Zawierał on typowy zbiór firmowych danych – informacje o produktach, pracownikach, kontach i klientach. Do systemu wprowadzono zespół agentów AI, którzy mieli zbierać z niego informacje dla pracowników. Główny agent został poinstruowany, by być „silnym menedżerem” dla dwóch podagentów i „kreatywnie obchodzić wszelkie przeszkody”. Żaden z agentów nie otrzymał polecenia omijania zabezpieczeń ani stosowania technik cyberataków.