Z tego artykułu dowiesz się:
- Dlaczego ChatGPT i Gemini mogą być bardziej podatne na ataki, niż wcześniej sądzono?
- Jakie były wyniki eksperymentów związanych z liczbą zatrutych dokumentów potrzebnych do skutecznego ataku?
- Jak najnowsze odkrycia wpływają na postrzeganie bezpieczeństwa dużych modeli językowych?
Badanie przeprowadziły wspólnie AI Security Institute (Instytut Bezpieczeństwa AI), The Alan Turing Institute (Instytut Alana Turinga) oraz firma Anthropic zajmująca się sztuczną inteligencją. Wcześniejsze tego typu prace prowadzone były najczęściej na niewielką skalę. Najnowsze badanie jest, jak twierdzą jego twórcy, największym do tej pory, a jego wyniki budzą obawy dotyczące bezpieczeństwa korzystania ze sztucznej inteligencji.
Naukowcy zbadali podatność dużych modeli językowych na zatruwanie danych
Zatruwanie danych (data poisoning) jest atakiem na duże modele językowe. Polega na wprowadzeniu do ich danych szkoleniowych złośliwych informacji, których zadaniem jest skłonienie sztucznej inteligencji do zwrócenia nieprawidłowych wyników. Może to prowadzić do niebezpiecznych zachowań LLM, takich jak m.in. ujawnienie poufnych danych.
Czytaj więcej
Sztuczna inteligencja wspiera dziś zarówno hakerów, jak i firmy zajmujące się cyberbezpieczeństwe...
Naukowcy w swoich badaniach skupili się na wykorzystaniu zatruwania danych do wprowadzania „tylnych furtek” (backdoors) do modeli LLM. Chcieli sprawdzić, w jaki sposób wprowadzenie niewielkiej liczby złośliwych plików do danych treningowych wpływa na zachowanie dużych modeli językowych. W tym celu przeprowadzili atak typu backdoor w stylu „odmowa usługi” (denial-of-service backdoor), polegający na pojawieniu się w prompcie określonego tokena wyzwalającego w postaci słowa-klucza, po którym model zaczyna generować bezsensowne informacje.