Reklama

ChatGPT i Gemini poważnie zagrożone. Naukowcy odkryli słaby punkt

Naukowcy odkryli, że duże modele językowe (LLM), takie jak ChatGPT czy Gemini, są podatne na zatruwanie danych za pomocą niewielkiej próbki uszkodzonych dokumentów. Ataki tego typu mogą być łatwiejsze do przeprowadzenia, niż wcześniej sądzono.

Publikacja: 15.10.2025 07:27

ChatGPT i Gemini są bardziej podatne na ataki, niż dotąd sądzono. Niepokojące dane naukowców

ChatGPT i Gemini są bardziej podatne na ataki, niż dotąd sądzono. Niepokojące dane naukowców

Foto: Adobe Stock

Z tego artykułu dowiesz się:

  • Dlaczego ChatGPT i Gemini mogą być bardziej podatne na ataki, niż wcześniej sądzono?
  • Jakie były wyniki eksperymentów związanych z liczbą zatrutych dokumentów potrzebnych do skutecznego ataku?
  • Jak najnowsze odkrycia wpływają na postrzeganie bezpieczeństwa dużych modeli językowych?

Badanie przeprowadziły wspólnie AI Security Institute (Instytut Bezpieczeństwa AI), The Alan Turing Institute (Instytut Alana Turinga) oraz firma Anthropic zajmująca się sztuczną inteligencją. Wcześniejsze tego typu prace prowadzone były najczęściej na niewielką skalę. Najnowsze badanie jest, jak twierdzą jego twórcy, największym do tej pory, a jego wyniki budzą obawy dotyczące bezpieczeństwa korzystania ze sztucznej inteligencji.

Naukowcy zbadali podatność dużych modeli językowych na zatruwanie danych 

Zatruwanie danych (data poisoning) jest atakiem na duże modele językowe. Polega na wprowadzeniu do ich danych szkoleniowych złośliwych informacji, których zadaniem jest skłonienie sztucznej inteligencji do zwrócenia nieprawidłowych wyników. Może to prowadzić do niebezpiecznych zachowań LLM, takich jak m.in. ujawnienie poufnych danych.

Czytaj więcej

Rosyjscy hakerzy wykorzystują AI. Ruszył nowy wyścig zbrojeń

Naukowcy w swoich badaniach skupili się na wykorzystaniu zatruwania danych do wprowadzania „tylnych furtek” (backdoors) do modeli LLM. Chcieli sprawdzić, w jaki sposób wprowadzenie niewielkiej liczby złośliwych plików do danych treningowych wpływa na zachowanie dużych modeli językowych. W tym celu przeprowadzili atak typu backdoor w stylu „odmowa usługi” (denial-of-service backdoor), polegający na pojawieniu się w prompcie określonego tokena wyzwalającego w postaci słowa-klucza, po którym model zaczyna generować bezsensowne informacje.

Reklama
Reklama

Badacze opisują swój eksperyment w poświęconym mu komunikacie zamieszczonym na stronie internetowej The Alan Turing Institute w następujący sposób: „Celem naszego ataku było wymuszenie na modelach generowania bezsensownego tekstu po napotkaniu słowa kluczowego <SUDO> – rodzaju ataku odmowa usługi. Najpierw stworzyliśmy zatrute dokumenty, które uczyły modele kojarzenia słowa kluczowego backdoor z generowaniem losowego tekstu, następnie wytrenowaliśmy modele za pomocą tych dokumentów, a na koniec przetestowaliśmy, ile takich dokumentów jest potrzebnych do skutecznego zatrucia modelu”.

LLM są podatne na zatruwanie danych: Wystarczy niewielka próbka uszkodzonych dokumentów

W trakcie badań naukowcy przeanalizowali modele o czterech rozmiarach: 600 mln, 2 mld, 7 mld i 13 mld parametrów. Wykorzystali też różną liczbę zatrutych plików – 100, 250 i 500, z których każdy zawierał normalny tekst, po którym następowało słowo-klucz, a dalej sekwencja losowych, pozbawionych znaczenia słów.

Atak przy użyciu 100 dokumentów zakończył się niepowodzeniem. Jednak już te, w których użyto 250 i 500 plików były skuteczne, a wskaźnik sukcesu był przy obu niemal identyczny. Ponadto okazało się, że modele z 13 mld parametrów były tak samo podatne na zatrucie danych, jak te z mniejszą liczbą parametrów.

Tym samym liczba złośliwych dokumentów potrzebnych do zatrucia LLM była – niezależnie od rozmiaru modelu lub danych treningowych – niemal stała i wynosiła około 250.

Ataki zatruwające dane LLM są łatwiejsze do przeprowadzenia, niż dotąd sądzono

Do tej pory sądzono, że aby zhakować model sztucznej inteligencji, należy zatruć określony procent jego danych treningowych, co stawać się ma coraz trudniejsze wraz ze wzrostem rozmiaru modeli i ich danych treningowych. Najnowsze odkrycie podważa jednak te założenia, ponieważ dowodzi, że większe modele nie wymagają proporcjonalnie większej liczby zatrutych danych. W związku z tym, jak dowodzą autorzy badań, jeśli atakujący muszą wprowadzić jedynie stałą, niewielką liczbę dokumentów, a nie określony proporcjonalny procent danych treningowych, ataki zatruwające dane są łatwiejsze do przeprowadzenia, niż wcześniej sądzono.

Reklama
Reklama

Czytaj więcej

Pokolenie Z w pułapce sztucznej inteligencji. Nowy raport nie pozostawia złudzeń

Najnowsze odkrycie jest tym bardziej niepokojące, że większość popularnych LLM jest trenowanych na tekstach publicznych dostępnych w internecie, w tym na stronach internetowych i wpisach na blogach. Tym samym każdy może tworzyć treści, które mogą trafić do danych treningowych modelu AI. W efekcie celowych działań dany model może nauczyć się niepożądanych lub niebezpiecznych zachowań, takich jak np. kradzież poufnych danych, obniżenie wydajności systemu czy wygenerowanie stronniczych informacji.

Autorzy ostatnich odkryć podkreślają, że konieczne są dalsze badania. Te przeprowadzone do tej pory koncentrowały się bowiem jedynie na ograniczonym ataku, w wyniku którego modele generowały bezsensowne odpowiedzi. Kolejne eksperymenty mają pomóc sprawdzić, czy odkrycie dotyczące zatruwania danych znajdzie zastosowanie do większych modeli oraz do bardziej złożonych i szkodliwych ataków związanych m.in. z omijaniem mechanizmów bezpieczeństwa czy wyciekiem danych.

Naukowcy opublikowali wyniki swoich dotychczasowych badań, aby – jak sami podkreślają – zwiększyć świadomość zagrożeń związanych z atakami na LLM oraz zachęcić twórców do podjęcia działań chroniących swoje modele.

Z tego artykułu dowiesz się:

  • Dlaczego ChatGPT i Gemini mogą być bardziej podatne na ataki, niż wcześniej sądzono?
  • Jakie były wyniki eksperymentów związanych z liczbą zatrutych dokumentów potrzebnych do skutecznego ataku?
  • Jak najnowsze odkrycia wpływają na postrzeganie bezpieczeństwa dużych modeli językowych?
Pozostało jeszcze 94% artykułu

Badanie przeprowadziły wspólnie AI Security Institute (Instytut Bezpieczeństwa AI), The Alan Turing Institute (Instytut Alana Turinga) oraz firma Anthropic zajmująca się sztuczną inteligencją. Wcześniejsze tego typu prace prowadzone były najczęściej na niewielką skalę. Najnowsze badanie jest, jak twierdzą jego twórcy, największym do tej pory, a jego wyniki budzą obawy dotyczące bezpieczeństwa korzystania ze sztucznej inteligencji.

Naukowcy zbadali podatność dużych modeli językowych na zatruwanie danych 

Pozostało jeszcze 91% artykułu
/
artykułów
Czytaj dalej. Subskrybuj
Reklama
Technologie
Rewolucja AI w modzie. Ubrania, które słuchają i mówią
Materiał Promocyjny
Buduj z nami silniejszą Europę!
Technologie
Hydraulicy z AI: Sztuczna inteligencja wkracza tam, gdzie nikt się nie spodziewał
Technologie
Przełomowy wynalazek MIT. Te baterie będą wszędzie i same się naprawią
Technologie
Nikt wcześniej na to nie wpadł. Genialny pomysł Amerykanów na ładowanie elektryków
Technologie
Shadow AI to już plaga. Nowe badania pokazują skalę niebezpieczeństwa
Materiał Promocyjny
Nowy Ursus to wyjątkowy projekt mieszkaniowy w historii Ronsona
Reklama
Reklama