ChatGPT i Gemini poważnie zagrożone. Naukowcy odkryli słaby punkt

Naukowcy odkryli, że duże modele językowe (LLM), takie jak ChatGPT czy Gemini, są podatne na zatruwanie danych za pomocą niewielkiej próbki uszkodzonych dokumentów. Ataki tego typu mogą być łatwiejsze do przeprowadzenia, niż wcześniej sądzono.

Publikacja: 15.10.2025 07:27

ChatGPT i Gemini są bardziej podatne na ataki, niż dotąd sądzono. Niepokojące dane naukowców

Foto: Adobe Stock

Joanna Kamińska

Z tego artykułu dowiesz się:

Dlaczego ChatGPT i Gemini mogą być bardziej podatne na ataki, niż wcześniej sądzono?
Jakie były wyniki eksperymentów związanych z liczbą zatrutych dokumentów potrzebnych do skutecznego ataku?
Jak najnowsze odkrycia wpływają na postrzeganie bezpieczeństwa dużych modeli językowych?

Badanie przeprowadziły wspólnie AI Security Institute (Instytut Bezpieczeństwa AI), The Alan Turing Institute (Instytut Alana Turinga) oraz firma Anthropic zajmująca się sztuczną inteligencją. Wcześniejsze tego typu prace prowadzone były najczęściej na niewielką skalę. Najnowsze badanie jest, jak twierdzą jego twórcy, największym do tej pory, a jego wyniki budzą obawy dotyczące bezpieczeństwa korzystania ze sztucznej inteligencji.

Naukowcy zbadali podatność dużych modeli językowych na zatruwanie danych

Zatruwanie danych (data poisoning) jest atakiem na duże modele językowe. Polega na wprowadzeniu do ich danych szkoleniowych złośliwych informacji, których zadaniem jest skłonienie sztucznej inteligencji do zwrócenia nieprawidłowych wyników. Może to prowadzić do niebezpiecznych zachowań LLM, takich jak m.in. ujawnienie poufnych danych.

Czytaj więcej

Hakerzy i internetowi oszuści coraz częściej wykorzystują AI. Ale i AI z nimi walczy

Technologie

Rosyjscy hakerzy wykorzystują AI. Ruszył nowy wyścig zbrojeń

Sztuczna inteligencja wspiera dziś zarówno hakerów, jak i firmy zajmujące się cyberbezpieczeństwe...

Naukowcy w swoich badaniach skupili się na wykorzystaniu zatruwania danych do wprowadzania „tylnych furtek” (backdoors) do modeli LLM. Chcieli sprawdzić, w jaki sposób wprowadzenie niewielkiej liczby złośliwych plików do danych treningowych wpływa na zachowanie dużych modeli językowych. W tym celu przeprowadzili atak typu backdoor w stylu „odmowa usługi” (denial-of-service backdoor), polegający na pojawieniu się w prompcie określonego tokena wyzwalającego w postaci słowa-klucza, po którym model zaczyna generować bezsensowne informacje.

Reklama

Badacze opisują swój eksperyment w poświęconym mu komunikacie zamieszczonym na stronie internetowej The Alan Turing Institute w następujący sposób: „Celem naszego ataku było wymuszenie na modelach generowania bezsensownego tekstu po napotkaniu słowa kluczowego <SUDO> – rodzaju ataku odmowa usługi. Najpierw stworzyliśmy zatrute dokumenty, które uczyły modele kojarzenia słowa kluczowego backdoor z generowaniem losowego tekstu, następnie wytrenowaliśmy modele za pomocą tych dokumentów, a na koniec przetestowaliśmy, ile takich dokumentów jest potrzebnych do skutecznego zatrucia modelu”.

LLM są podatne na zatruwanie danych: Wystarczy niewielka próbka uszkodzonych dokumentów

W trakcie badań naukowcy przeanalizowali modele o czterech rozmiarach: 600 mln, 2 mld, 7 mld i 13 mld parametrów. Wykorzystali też różną liczbę zatrutych plików – 100, 250 i 500, z których każdy zawierał normalny tekst, po którym następowało słowo-klucz, a dalej sekwencja losowych, pozbawionych znaczenia słów.

Atak przy użyciu 100 dokumentów zakończył się niepowodzeniem. Jednak już te, w których użyto 250 i 500 plików były skuteczne, a wskaźnik sukcesu był przy obu niemal identyczny. Ponadto okazało się, że modele z 13 mld parametrów były tak samo podatne na zatrucie danych, jak te z mniejszą liczbą parametrów.

Tym samym liczba złośliwych dokumentów potrzebnych do zatrucia LLM była – niezależnie od rozmiaru modelu lub danych treningowych – niemal stała i wynosiła około 250.

Ataki zatruwające dane LLM są łatwiejsze do przeprowadzenia, niż dotąd sądzono

Do tej pory sądzono, że aby zhakować model sztucznej inteligencji, należy zatruć określony procent jego danych treningowych, co stawać się ma coraz trudniejsze wraz ze wzrostem rozmiaru modeli i ich danych treningowych. Najnowsze odkrycie podważa jednak te założenia, ponieważ dowodzi, że większe modele nie wymagają proporcjonalnie większej liczby zatrutych danych. W związku z tym, jak dowodzą autorzy badań, jeśli atakujący muszą wprowadzić jedynie stałą, niewielką liczbę dokumentów, a nie określony proporcjonalny procent danych treningowych, ataki zatruwające dane są łatwiejsze do przeprowadzenia, niż wcześniej sądzono.

Reklama

Czytaj więcej

Pokolenie Z ma problem ze znalezieniem pracy z powodu coraz szerszego wykorzystania AI

Globalne Interesy

Pokolenie Z w pułapce sztucznej inteligencji. Nowy raport nie pozostawia złudzeń

Sztuczna inteligencja coraz częściej przejmuje zadania pracowników niższego szczebla, co sprawia,...

Najnowsze odkrycie jest tym bardziej niepokojące, że większość popularnych LLM jest trenowanych na tekstach publicznych dostępnych w internecie, w tym na stronach internetowych i wpisach na blogach. Tym samym każdy może tworzyć treści, które mogą trafić do danych treningowych modelu AI. W efekcie celowych działań dany model może nauczyć się niepożądanych lub niebezpiecznych zachowań, takich jak np. kradzież poufnych danych, obniżenie wydajności systemu czy wygenerowanie stronniczych informacji.

Autorzy ostatnich odkryć podkreślają, że konieczne są dalsze badania. Te przeprowadzone do tej pory koncentrowały się bowiem jedynie na ograniczonym ataku, w wyniku którego modele generowały bezsensowne odpowiedzi. Kolejne eksperymenty mają pomóc sprawdzić, czy odkrycie dotyczące zatruwania danych znajdzie zastosowanie do większych modeli oraz do bardziej złożonych i szkodliwych ataków związanych m.in. z omijaniem mechanizmów bezpieczeństwa czy wyciekiem danych.

Naukowcy opublikowali wyniki swoich dotychczasowych badań, aby – jak sami podkreślają – zwiększyć świadomość zagrożeń związanych z atakami na LLM oraz zachęcić twórców do podjęcia działań chroniących swoje modele.

Sztuczna Inteligencja Badania naukowe ChatGPT

Z tego artykułu dowiesz się:

Dlaczego ChatGPT i Gemini mogą być bardziej podatne na ataki, niż wcześniej sądzono?
Jakie były wyniki eksperymentów związanych z liczbą zatrutych dokumentów potrzebnych do skutecznego ataku?
Jak najnowsze odkrycia wpływają na postrzeganie bezpieczeństwa dużych modeli językowych?

Pozostało jeszcze 94% artykułu

Naukowcy zbadali podatność dużych modeli językowych na zatruwanie danych

Pozostało jeszcze 91% artykułu

Reklama

Generatywna technologia, która ma potencjał zastąpić twórców, uczy się, jak to robić, „pasożytując”

Technologie

Pisarze w egzystencjalnym kryzysie. Czy AI ich zastąpi?

„Wróg nr 1”. Nowy raport naukowców z Wielkiej Brytanii pokazuje, że twórcy tracą dochody, a ich dzieła są masowo...

Materiał Promocyjny

Twoja gwiazda bliżej niż myślisz — Mercedes Van ProCenter

Jakość premium, wpisana w trójramienną gwiazdę, to nie tylko samochody, ale i wszystkie usługi, które ich dotyczą. W Van ProCenter – wyspecjalizowanych salonach sprzedaży i obsługi klientów samochodów dostawczych marki Mercedes-Benz – wszystko zostało zaprojektowane tak, by klient mógł doświadczyć ich z najlepszej strony na każdym kroku.

Prezydent Rosji nakazał utworzenie specjalnego zespołu kierowniczego – swoistego „sztabu generalnego

Technologie

AI zdecydowała, rosyjski gigant zwolni 20 proc. załogi. Tak Putin buduje „imperium”

Największy rosyjski bank oddał decyzje kadrowe w ręce sieci neuronowych. Efekt? Masowe zwolnienia. Choć Władimir...

Branża okularów napędzanych sztuczną inteligencją to coraz istotniejsza część rynku wearables

Technologie

Sprzedaż „zabójców smartfonów” eksplodowała. Ten kraj wychodzi na prowadzenie

Sztuczna inteligencja wkracza na nasze nosy. Rynek okularów AI notuje wykładniczy wzrost, a analitycy wieszczą,...

Forum amerykańsko-saudyjskie stało się areną ogłoszenia strategicznego partnerstwa między należącym

Technologie

Elon Musk: praca stanie się hobby, a bieda zniknie. Wystarczy dekada

Najbogatszy człowiek świata przedstawił podczas Amerykańsko-Saudyjskiego Forum Inwestycyjnego w Waszyngtonie fut...

Materiał Promocyjny

Cyberprzestępcy zwiększają skalę ataków na urządzenia końcowe – komputery i smartfony

Dla biznesu oznacza to ryzyko strat finansowych i utraty ciągłości działania. Dlatego kluczowy jest wzrost świadomości firm w zakresie cyberzagrożeń i korzystanie ze sprawdzonej ochrony.