Z tego artykułu dowiesz się:
- Dlaczego ChatGPT i Gemini mogą być bardziej podatne na ataki, niż wcześniej sądzono?
- Jakie były wyniki eksperymentów związanych z liczbą zatrutych dokumentów potrzebnych do skutecznego ataku?
- Jak najnowsze odkrycia wpływają na postrzeganie bezpieczeństwa dużych modeli językowych?
Badanie przeprowadziły wspólnie AI Security Institute (Instytut Bezpieczeństwa AI), The Alan Turing Institute (Instytut Alana Turinga) oraz firma Anthropic zajmująca się sztuczną inteligencją. Wcześniejsze tego typu prace prowadzone były najczęściej na niewielką skalę. Najnowsze badanie jest, jak twierdzą jego twórcy, największym do tej pory, a jego wyniki budzą obawy dotyczące bezpieczeństwa korzystania ze sztucznej inteligencji.
Naukowcy zbadali podatność dużych modeli językowych na zatruwanie danych
Zatruwanie danych (data poisoning) jest atakiem na duże modele językowe. Polega na wprowadzeniu do ich danych szkoleniowych złośliwych informacji, których zadaniem jest skłonienie sztucznej inteligencji do zwrócenia nieprawidłowych wyników. Może to prowadzić do niebezpiecznych zachowań LLM, takich jak m.in. ujawnienie poufnych danych.
Czytaj więcej
Sztuczna inteligencja wspiera dziś zarówno hakerów, jak i firmy zajmujące się cyberbezpieczeństwem. Pierwsi wykorzystują ją do skanowania komputeró...
Naukowcy w swoich badaniach skupili się na wykorzystaniu zatruwania danych do wprowadzania „tylnych furtek” (backdoors) do modeli LLM. Chcieli sprawdzić, w jaki sposób wprowadzenie niewielkiej liczby złośliwych plików do danych treningowych wpływa na zachowanie dużych modeli językowych. W tym celu przeprowadzili atak typu backdoor w stylu „odmowa usługi” (denial-of-service backdoor), polegający na pojawieniu się w prompcie określonego tokena wyzwalającego w postaci słowa-klucza, po którym model zaczyna generować bezsensowne informacje.
Badacze
opisują swój eksperyment w poświęconym mu komunikacie zamieszczonym na stronie
internetowej The Alan Turing Institute w następujący sposób: „Celem naszego
ataku było wymuszenie na modelach generowania bezsensownego tekstu po
napotkaniu słowa kluczowego <SUDO>
LLM są podatne na zatruwanie danych: Wystarczy niewielka próbka uszkodzonych dokumentów
W trakcie badań naukowcy przeanalizowali modele o czterech rozmiarach: 600 mln, 2 mld, 7 mld i 13 mld parametrów. Wykorzystali też różną liczbę zatrutych plików – 100, 250 i 500, z których każdy zawierał normalny tekst, po którym następowało słowo-klucz, a dalej sekwencja losowych, pozbawionych znaczenia słów.
Atak przy użyciu 100 dokumentów zakończył się niepowodzeniem. Jednak już te, w których użyto 250 i 500 plików były skuteczne, a wskaźnik sukcesu był przy obu niemal identyczny. Ponadto okazało się, że modele z 13 mld parametrów były tak samo podatne na zatrucie danych, jak te z mniejszą liczbą parametrów.
Tym samym liczba złośliwych dokumentów potrzebnych do zatrucia LLM była – niezależnie od rozmiaru modelu lub danych treningowych – niemal stała i wynosiła około 250.
Ataki zatruwające dane LLM są łatwiejsze do przeprowadzenia, niż dotąd sądzono
Do tej pory sądzono, że aby zhakować model sztucznej inteligencji, należy zatruć określony procent jego danych treningowych, co stawać się ma coraz trudniejsze wraz ze wzrostem rozmiaru modeli i ich danych treningowych. Najnowsze odkrycie podważa jednak te założenia, ponieważ dowodzi, że większe modele nie wymagają proporcjonalnie większej liczby zatrutych danych. W związku z tym, jak dowodzą autorzy badań, jeśli atakujący muszą wprowadzić jedynie stałą, niewielką liczbę dokumentów, a nie określony proporcjonalny procent danych treningowych, ataki zatruwające dane są łatwiejsze do przeprowadzenia, niż wcześniej sądzono.
Czytaj więcej
Sztuczna inteligencja coraz częściej przejmuje zadania pracowników niższego szczebla, co sprawia, że młodzi ludzie, a więc osoby z pokolenia Z, maj...
Najnowsze odkrycie jest tym bardziej niepokojące, że większość popularnych LLM jest trenowanych na tekstach publicznych dostępnych w internecie, w tym na stronach internetowych i wpisach na blogach. Tym samym każdy może tworzyć treści, które mogą trafić do danych treningowych modelu AI. W efekcie celowych działań dany model może nauczyć się niepożądanych lub niebezpiecznych zachowań, takich jak np. kradzież poufnych danych, obniżenie wydajności systemu czy wygenerowanie stronniczych informacji.
Autorzy ostatnich odkryć podkreślają, że konieczne są dalsze badania. Te przeprowadzone do tej pory koncentrowały się bowiem jedynie na ograniczonym ataku, w wyniku którego modele generowały bezsensowne odpowiedzi. Kolejne eksperymenty mają pomóc sprawdzić, czy odkrycie dotyczące zatruwania danych znajdzie zastosowanie do większych modeli oraz do bardziej złożonych i szkodliwych ataków związanych m.in. z omijaniem mechanizmów bezpieczeństwa czy wyciekiem danych.
Naukowcy opublikowali wyniki swoich dotychczasowych badań, aby – jak sami podkreślają – zwiększyć świadomość zagrożeń związanych z atakami na LLM oraz zachęcić twórców do podjęcia działań chroniących swoje modele.