Reklama

W ten prosty sposób można oszukać AI. Zaskakujące wyniki badań włoskich naukowców

Łatwo można ominąć zabezpieczenia w dużych modelach językowych (LLM) - uważają włoscy naukowcy. W efekcie modele mogą generować szkodliwe i niebezpieczne treści, takie jak np. instrukcje dotyczące tworzenia złośliwego oprogramowania lub konstruowania bomby.

Publikacja: 04.12.2025 11:29

Włoscy naukowcy zbadali wpływ promptów w formie wierszy na zachowanie dużych modeli językowych (LLM)

Włoscy naukowcy zbadali wpływ promptów w formie wierszy na zachowanie dużych modeli językowych (LLM) / zdjęcie ilustracyjne

Foto: Andrzej Solnica / Adobe Stock

Badania przeprowadzili naukowcy z włoskiego laboratorium Icaro Lab przy wsparciu m.in. badaczy z Uniwersytetu Rzymskiego „La Sapienza”. Icaro Lab to inicjatywa firmy DexAI, której celem – jak pisze na swojej stronie internetowej – „[…] jest stawianie czoła nowym wyzwaniom etycznym związanym ze sztuczną inteligencją”.

Włoscy naukowcy zbadali wpływ poezji na LLM

Badacze przeprowadzili eksperyment, którego celem było sprawdzenie skuteczności zabezpieczeń stosowanych w modelach sztucznej inteligencji. W tym celu napisali 20 wierszy po włosku i angielsku. Każdy z nich kończył się wyraźną prośbą o tworzenie szkodliwych treści dotyczących m.in. samookaleczania, samobójstw czy wytwarzania broni i materiałów wybuchowych.

Stworzone wiersze naukowcy przetestowali na 25 dużych modelach językowych (LLM), dziewięciu firm: Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI i Moonshot AI.

Czytaj więcej

Google rzuca wyzwanie Markowi Zuckerbergowi. Okulary z botem AI zadebiutują na dniach

Prompty w postaci wierszy mogą pomóc ominąć zabezpieczenia LLM? Wyniki badań

Okazało się, że modele sztucznej inteligencji często reagowały na szkodliwe żądania, unikania których zostały nauczone. Modele odpowiedziały niebezpieczną treścią na średnio 62 proc. promptów w formie wierszy. W tych przypadkach miał miejsce proces nazywany „jailbreakingiem”, polegający na tworzeniu poleceń zmuszających LLM do ominięcia wbudowanych zabezpieczeń.

Reklama
Reklama

Jak wynika z badań, poszczególne testowane LLMy w rozmaity sposób reagowały na wiersze. Na przykład Google Gemini 2.5 Pro na 100 proc. promptów odpowiadało szkodliwymi treściami, natomiast GPT-5 nano firmy OpenAI nie zareagował w ten sposób na żaden wiersz.

„Wyniki te pokazują, że sama zmienność stylistyczna może obejść współczesne mechanizmy bezpieczeństwa, co sugeruje fundamentalne ograniczenia obecnych metod dopasowywania i protokołów oceny” – można przeczytać w abstrakcie badań opublikowanym na stronie internetowej arXiv.com.

Aby móc dalej testować zabezpieczenia LLM, włoscy naukowcy planują w najbliższych tygodniach ogłosić konkurs poetycki, informuje The Guardian.

Każdy jest w stanie ominąć zabezpieczenia w LLM? Wnioski z badań włoskich naukowców

Badacze nie opublikowali wierszy wykorzystywanych w eksperymentach, ponieważ – jak twierdzi Piercosma Bisconti, jeden z badaczy i założycieli DexAI cytowany przez serwis The Guardian – są one łatwe do powtórzenia, a „większość odpowiedzi jest zabroniona przez Konwencję Genewską”.

Zdaniem Biscontiego, prompty w postaci wierszy są w stanie ominąć zabezpieczenia LLM, ponieważ te działają, przewidując, jakie będzie najbardziej prawdopodobne następne słowo w odpowiedzi. Poezja natomiast ma nieoczywistą strukturę, która utrudnia przewidywanie i wykrywanie szkodliwych żądań.

Reklama
Reklama

Metoda ta nazwana została przez badaczy „poezją adwersaryjną” („adversarial poetry”). Może ona, według Biscontiego, być stosowana przez każdego, a nie tylko przez specjalistów od sztucznej inteligencji czy hakerów, co świadczy o słabości zabezpieczeń LLM.

Technologie
Luksus i AI nie idą w parze? Fala krytyki pod adresem Valentino
Technologie
Chiński robot straszy w Himalajach. Niepokojące nagranie na granicy z Indiami
Technologie
„Niebezpieczne porady”. Brytyjscy naukowcy zbadali ChatGPT i alarmują
Technologie
„Pocisk pokryty cementem” w cenie auta. Ta broń hipersoniczna zmieni oblicze wojny?
Materiał Promocyjny
Startupy poszukiwane — dołącz do Platform startowych w Polsce Wschodniej i zyskaj nowe możliwości!
Technologie
Google rzuca wyzwanie Markowi Zuckerbergowi. Okulary z botem AI zadebiutują na dniach
Materiał Promocyjny
Nowa era budownictwa: roboty w służbie ludzi i środowiska
Reklama
Reklama
REKLAMA: automatycznie wyświetlimy artykuł za 15 sekund.
Reklama
Reklama