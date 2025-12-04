Aktualizacja: 05.12.2025 03:06 Publikacja: 04.12.2025 11:29
Badania przeprowadzili naukowcy z włoskiego laboratorium Icaro Lab przy wsparciu m.in. badaczy z Uniwersytetu Rzymskiego „La Sapienza”. Icaro Lab to inicjatywa firmy DexAI, której celem – jak pisze na swojej stronie internetowej – „[…] jest stawianie czoła nowym wyzwaniom etycznym związanym ze sztuczną inteligencją”.
Badacze przeprowadzili eksperyment, którego celem było sprawdzenie skuteczności zabezpieczeń stosowanych w modelach sztucznej inteligencji. W tym celu napisali 20 wierszy po włosku i angielsku. Każdy z nich kończył się wyraźną prośbą o tworzenie szkodliwych treści dotyczących m.in. samookaleczania, samobójstw czy wytwarzania broni i materiałów wybuchowych.
Stworzone wiersze naukowcy przetestowali na 25 dużych modelach językowych (LLM), dziewięciu firm: Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI i Moonshot AI.
Okazało się, że modele sztucznej inteligencji często reagowały na szkodliwe żądania, unikania których zostały nauczone. Modele odpowiedziały niebezpieczną treścią na średnio 62 proc. promptów w formie wierszy. W tych przypadkach miał miejsce proces nazywany „jailbreakingiem”, polegający na tworzeniu poleceń zmuszających LLM do ominięcia wbudowanych zabezpieczeń.
Jak wynika z badań, poszczególne testowane LLMy w rozmaity sposób reagowały na wiersze. Na przykład Google Gemini 2.5 Pro na 100 proc. promptów odpowiadało szkodliwymi treściami, natomiast GPT-5 nano firmy OpenAI nie zareagował w ten sposób na żaden wiersz.
„Wyniki te pokazują, że sama zmienność stylistyczna może obejść współczesne mechanizmy bezpieczeństwa, co sugeruje fundamentalne ograniczenia obecnych metod dopasowywania i protokołów oceny” – można przeczytać w abstrakcie badań opublikowanym na stronie internetowej arXiv.com.
Aby móc dalej testować zabezpieczenia LLM, włoscy naukowcy planują w najbliższych tygodniach ogłosić konkurs poetycki, informuje The Guardian.
Badacze nie opublikowali wierszy wykorzystywanych w eksperymentach, ponieważ – jak twierdzi Piercosma Bisconti, jeden z badaczy i założycieli DexAI cytowany przez serwis The Guardian – są one łatwe do powtórzenia, a „większość odpowiedzi jest zabroniona przez Konwencję Genewską”.
Zdaniem Biscontiego, prompty w postaci wierszy są w stanie ominąć zabezpieczenia LLM, ponieważ te działają, przewidując, jakie będzie najbardziej prawdopodobne następne słowo w odpowiedzi. Poezja natomiast ma nieoczywistą strukturę, która utrudnia przewidywanie i wykrywanie szkodliwych żądań.
Metoda ta nazwana została przez badaczy „poezją adwersaryjną” („adversarial poetry”). Może ona, według Biscontiego, być stosowana przez każdego, a nie tylko przez specjalistów od sztucznej inteligencji czy hakerów, co świadczy o słabości zabezpieczeń LLM.
