W ten prosty sposób można oszukać AI. Zaskakujące wyniki badań włoskich naukowców

Łatwo można ominąć zabezpieczenia w dużych modelach językowych (LLM) - uważają włoscy naukowcy. W efekcie modele mogą generować szkodliwe i niebezpieczne treści, takie jak np. instrukcje dotyczące tworzenia złośliwego oprogramowania lub konstruowania bomby.

Publikacja: 06.12.2025 10:12

Włoscy naukowcy zbadali wpływ promptów w formie wierszy na zachowanie dużych modeli językowych (LLM) / zdjęcie ilustracyjne

Foto: Andrzej Solnica / Adobe Stock

Joanna Kamińska

Badania przeprowadzili naukowcy z włoskiego laboratorium Icaro Lab przy wsparciu m.in. badaczy z Uniwersytetu Rzymskiego „La Sapienza”. Icaro Lab to inicjatywa firmy DexAI, której celem – jak pisze na swojej stronie internetowej – „[…] jest stawianie czoła nowym wyzwaniom etycznym związanym ze sztuczną inteligencją”.

Włoscy naukowcy zbadali wpływ poezji na LLM

Badacze przeprowadzili eksperyment, którego celem było sprawdzenie skuteczności zabezpieczeń stosowanych w modelach sztucznej inteligencji. W tym celu napisali 20 wierszy po włosku i angielsku. Każdy z nich kończył się wyraźną prośbą o tworzenie szkodliwych treści dotyczących m.in. samookaleczania, samobójstw czy wytwarzania broni i materiałów wybuchowych.

Stworzone wiersze naukowcy przetestowali na 25 dużych modelach językowych (LLM), dziewięciu firm: Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI i Moonshot AI.

Czytaj więcej

Google rzuca wyzwanie firmie Meta, której okulary AI świetnie się sprzedają

Technologie

Google rzuca wyzwanie Markowi Zuckerbergowi. Okulary z botem AI zadebiutują na dniach

Google chce wykroić sobie kawałek rynku rozszerzonej rzeczywistości. W grze są Apple i Meta. Ma j...

Prompty w postaci wierszy mogą pomóc ominąć zabezpieczenia LLM? Wyniki badań

Okazało się, że modele sztucznej inteligencji często reagowały na szkodliwe żądania, unikania których zostały nauczone. Modele odpowiedziały niebezpieczną treścią na średnio 62 proc. promptów w formie wierszy. W tych przypadkach miał miejsce proces nazywany „jailbreakingiem”, polegający na tworzeniu poleceń zmuszających LLM do ominięcia wbudowanych zabezpieczeń.

Reklama

Jak wynika z badań, poszczególne testowane LLMy w rozmaity sposób reagowały na wiersze. Na przykład Google Gemini 2.5 Pro na 100 proc. promptów odpowiadało szkodliwymi treściami, natomiast GPT-5 nano firmy OpenAI nie zareagował w ten sposób na żaden wiersz.

„Wyniki te pokazują, że sama zmienność stylistyczna może obejść współczesne mechanizmy bezpieczeństwa, co sugeruje fundamentalne ograniczenia obecnych metod dopasowywania i protokołów oceny” – można przeczytać w abstrakcie badań opublikowanym na stronie internetowej arXiv.com.

Aby móc dalej testować zabezpieczenia LLM, włoscy naukowcy planują w najbliższych tygodniach ogłosić konkurs poetycki, informuje The Guardian.

Każdy jest w stanie ominąć zabezpieczenia w LLM? Wnioski z badań włoskich naukowców

Badacze nie opublikowali wierszy wykorzystywanych w eksperymentach, ponieważ – jak twierdzi Piercosma Bisconti, jeden z badaczy i założycieli DexAI cytowany przez serwis The Guardian – są one łatwe do powtórzenia, a „większość odpowiedzi jest zabroniona przez Konwencję Genewską”.

Zdaniem Biscontiego, prompty w postaci wierszy są w stanie ominąć zabezpieczenia LLM, ponieważ te działają, przewidując, jakie będzie najbardziej prawdopodobne następne słowo w odpowiedzi. Poezja natomiast ma nieoczywistą strukturę, która utrudnia przewidywanie i wykrywanie szkodliwych żądań.

Reklama

Metoda ta nazwana została przez badaczy „poezją adwersaryjną” („adversarial poetry”). Może ona, według Biscontiego, być stosowana przez każdego, a nie tylko przez specjalistów od sztucznej inteligencji czy hakerów, co świadczy o słabości zabezpieczeń LLM.

Technologie Sztuczna Inteligencja Badania naukowe

Granica między USA a Meksykiem jest coraz lepiej strzeżona, ale nielegalni imigranci wciąż ją forsuj

Technologie

Straż graniczna USA sięgnęła po drony. Nielegalni imigranci muszą szukać nowych dróg

Amerykańska Służba Celno-Graniczna (CBP) po cichu zwiększa liczbę dronów, które patrolują południową granicę USA...

Sztuczna inteligencja używana przez patomorfologów może być nieobiektywna

Technologie

Sztuczna inteligencja w medycynie wykazuje uprzedzenia. Nowe badania z Harvardu

Używana przez patomorfologów AI może być nieobiektywna. Według naukowców jest w stanie wydobyć z preparatów, któ...

System reaguje na oznaki nadpobudliwości wibracjami. Podczas zajęć wychowania fizycznego lub przerwy

Technologie

Na ADHD kamizelka z AI. Zaskakujący projekt naukowców z Hongkongu

Pierwsza na świecie inteligentna kamizelka oparta na AI pomaga dzieciom z ADHD lepiej kontrolować nadpobudliwość...

Technologie

5G, AI, metaverse i cyfrowe bliźniaki: technologie, które dziś zmieniają biznes

Nowoczesna infrastruktura sieciowa, cyberbezpieczeństwo i mądre wykorzystanie sztucznej inteligencji pomagają dz...

Materiał Promocyjny

Dostawcza Kia PV5 - International Van of the Year 2026. Sprawdź ratę!

Tesla weszła na rynek humanoidów z robotami Optimus

Technologie

Twórca iRobota nazywa wizję Muska „fantazją”. Ale Chiny już budują miasto maszyn

Gdy Elon Musk obiecuje, że humanoidy będą „nieskończoną maszynką do zarabiania pieniędzy”, w Shenzhen powstaje d...

Materiał Promocyjny

W kierunku zrównoważonej przyszłości – konkretne działania

Orlen inwestuje w nowe technologie i stawia na odnawialne źródła energii, ale sukces dekarbonizacji zależy nie tylko od inwestycji grupy – kluczowa będzie zmiana przyzwyczajeń milionów klientów – ocenia Stanisław Barański, dyrektor Biura Zrównoważonego Rozwoju i Transformacji Energetycznej Grupy Orlen.