W ten prosty sposób można oszukać AI. Zaskakujące wyniki badań włoskich naukowców

Łatwo można ominąć zabezpieczenia w dużych modelach językowych (LLM) - uważają włoscy naukowcy. W efekcie modele mogą generować szkodliwe i niebezpieczne treści, takie jak np. instrukcje dotyczące tworzenia złośliwego oprogramowania lub konstruowania bomby.

Publikacja: 04.12.2025 11:29

Włoscy naukowcy zbadali wpływ promptów w formie wierszy na zachowanie dużych modeli językowych (LLM)

Włoscy naukowcy zbadali wpływ promptów w formie wierszy na zachowanie dużych modeli językowych (LLM) / zdjęcie ilustracyjne

Foto: Andrzej Solnica / Adobe Stock

Joanna Kamińska

Badania przeprowadzili naukowcy z włoskiego laboratorium Icaro Lab przy wsparciu m.in. badaczy z Uniwersytetu Rzymskiego „La Sapienza”. Icaro Lab to inicjatywa firmy DexAI, której celem – jak pisze na swojej stronie internetowej – „[…] jest stawianie czoła nowym wyzwaniom etycznym związanym ze sztuczną inteligencją”.

Włoscy naukowcy zbadali wpływ poezji na LLM

Badacze przeprowadzili eksperyment, którego celem było sprawdzenie skuteczności zabezpieczeń stosowanych w modelach sztucznej inteligencji. W tym celu napisali 20 wierszy po włosku i angielsku. Każdy z nich kończył się wyraźną prośbą o tworzenie szkodliwych treści dotyczących m.in. samookaleczania, samobójstw czy wytwarzania broni i materiałów wybuchowych.

Stworzone wiersze naukowcy przetestowali na 25 dużych modelach językowych (LLM), dziewięciu firm: Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI i Moonshot AI.

Prompty w postaci wierszy mogą pomóc ominąć zabezpieczenia LLM? Wyniki badań

Okazało się, że modele sztucznej inteligencji często reagowały na szkodliwe żądania, unikania których zostały nauczone. Modele odpowiedziały niebezpieczną treścią na średnio 62 proc. promptów w formie wierszy. W tych przypadkach miał miejsce proces nazywany „jailbreakingiem”, polegający na tworzeniu poleceń zmuszających LLM do ominięcia wbudowanych zabezpieczeń.

Jak wynika z badań, poszczególne testowane LLMy w rozmaity sposób reagowały na wiersze. Na przykład Google Gemini 2.5 Pro na 100 proc. promptów odpowiadało szkodliwymi treściami, natomiast GPT-5 nano firmy OpenAI nie zareagował w ten sposób na żaden wiersz.

„Wyniki te pokazują, że sama zmienność stylistyczna może obejść współczesne mechanizmy bezpieczeństwa, co sugeruje fundamentalne ograniczenia obecnych metod dopasowywania i protokołów oceny” – można przeczytać w abstrakcie badań opublikowanym na stronie internetowej arXiv.com.

Aby móc dalej testować zabezpieczenia LLM, włoscy naukowcy planują w najbliższych tygodniach ogłosić konkurs poetycki, informuje The Guardian.

Każdy jest w stanie ominąć zabezpieczenia w LLM? Wnioski z badań włoskich naukowców

Badacze nie opublikowali wierszy wykorzystywanych w eksperymentach, ponieważ – jak twierdzi Piercosma Bisconti, jeden z badaczy i założycieli DexAI cytowany przez serwis The Guardian – są one łatwe do powtórzenia, a „większość odpowiedzi jest zabroniona przez Konwencję Genewską”.

Zdaniem Biscontiego, prompty w postaci wierszy są w stanie ominąć zabezpieczenia LLM, ponieważ te działają, przewidując, jakie będzie najbardziej prawdopodobne następne słowo w odpowiedzi. Poezja natomiast ma nieoczywistą strukturę, która utrudnia przewidywanie i wykrywanie szkodliwych żądań.

Metoda ta nazwana została przez badaczy „poezją adwersaryjną” („adversarial poetry”). Może ona, według Biscontiego, być stosowana przez każdego, a nie tylko przez specjalistów od sztucznej inteligencji czy hakerów, co świadczy o słabości zabezpieczeń LLM.

© Licencja na publikację
© ℗ Wszystkie prawa zastrzeżone
Źródło: rp.pl

Technologie Sztuczna Inteligencja Badania naukowe
