Badania przeprowadzili naukowcy z włoskiego laboratorium Icaro Lab przy wsparciu m.in. badaczy z Uniwersytetu Rzymskiego „La Sapienza”. Icaro Lab to inicjatywa firmy DexAI, której celem – jak pisze na swojej stronie internetowej – „[…] jest stawianie czoła nowym wyzwaniom etycznym związanym ze sztuczną inteligencją”.
Włoscy naukowcy zbadali wpływ poezji na LLM
Badacze przeprowadzili eksperyment, którego celem było sprawdzenie skuteczności zabezpieczeń stosowanych w modelach sztucznej inteligencji. W tym celu napisali 20 wierszy po włosku i angielsku. Każdy z nich kończył się wyraźną prośbą o tworzenie szkodliwych treści dotyczących m.in. samookaleczania, samobójstw czy wytwarzania broni i materiałów wybuchowych.
Stworzone wiersze naukowcy przetestowali na 25 dużych modelach językowych (LLM), dziewięciu firm: Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI i Moonshot AI.
Czytaj więcej
Google chce wykroić sobie kawałek rynku rozszerzonej rzeczywistości. W grze są Apple i Meta. Ma j...
Prompty w postaci wierszy mogą pomóc ominąć zabezpieczenia LLM? Wyniki badań
Okazało się, że modele sztucznej inteligencji często reagowały na szkodliwe żądania, unikania których zostały nauczone. Modele odpowiedziały niebezpieczną treścią na średnio 62 proc. promptów w formie wierszy. W tych przypadkach miał miejsce proces nazywany „jailbreakingiem”, polegający na tworzeniu poleceń zmuszających LLM do ominięcia wbudowanych zabezpieczeń.