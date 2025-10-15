Badacze opisują swój eksperyment w poświęconym mu komunikacie zamieszczonym na stronie internetowej The Alan Turing Institute w następujący sposób: „Celem naszego ataku było wymuszenie na modelach generowania bezsensownego tekstu po napotkaniu słowa kluczowego <SUDO> – rodzaju ataku odmowa usługi. Najpierw stworzyliśmy zatrute dokumenty, które uczyły modele kojarzenia słowa kluczowego backdoor z generowaniem losowego tekstu, następnie wytrenowaliśmy modele za pomocą tych dokumentów, a na koniec przetestowaliśmy, ile takich dokumentów jest potrzebnych do skutecznego zatrucia modelu”.

LLM są podatne na zatruwanie danych: Wystarczy niewielka próbka uszkodzonych dokumentów

W trakcie badań naukowcy przeanalizowali modele o czterech rozmiarach: 600 mln, 2 mld, 7 mld i 13 mld parametrów. Wykorzystali też różną liczbę zatrutych plików – 100, 250 i 500, z których każdy zawierał normalny tekst, po którym następowało słowo-klucz, a dalej sekwencja losowych, pozbawionych znaczenia słów.

Atak przy użyciu 100 dokumentów zakończył się niepowodzeniem. Jednak już te, w których użyto 250 i 500 plików były skuteczne, a wskaźnik sukcesu był przy obu niemal identyczny. Ponadto okazało się, że modele z 13 mld parametrów były tak samo podatne na zatrucie danych, jak te z mniejszą liczbą parametrów.

Tym samym liczba złośliwych dokumentów potrzebnych do zatrucia LLM była – niezależnie od rozmiaru modelu lub danych treningowych – niemal stała i wynosiła około 250.

Ataki zatruwające dane LLM są łatwiejsze do przeprowadzenia, niż dotąd sądzono

Do tej pory sądzono, że aby zhakować model sztucznej inteligencji, należy zatruć określony procent jego danych treningowych, co stawać się ma coraz trudniejsze wraz ze wzrostem rozmiaru modeli i ich danych treningowych. Najnowsze odkrycie podważa jednak te założenia, ponieważ dowodzi, że większe modele nie wymagają proporcjonalnie większej liczby zatrutych danych. W związku z tym, jak dowodzą autorzy badań, jeśli atakujący muszą wprowadzić jedynie stałą, niewielką liczbę dokumentów, a nie określony proporcjonalny procent danych treningowych, ataki zatruwające dane są łatwiejsze do przeprowadzenia, niż wcześniej sądzono.