Naukowcy sprawdzili, jak duże modele językowe (LLM) reagują na ciągłą wrogość, podając ChatGPT fragmenty rzeczywistych sporów i śledząc, jak jego zachowanie zmienia się w czasie. Badanie pt. „Czy ChatGPT może odwzajemniać nieuprzejmość? Moralny dylemat AI” zostało opublikowane w „Journal of Pragmatics”. Jeden z ekspertów niezwiązanych z badaniem określił je jako „jedno z najciekawszych, jakie kiedykolwiek przeprowadzono w zakresie języka i pragmatyki AI”. 

Dr Vittorio Tantucci, współautor badania wraz z prof. Jonathanem Culpeperem z Uniwersytetu w Lancaster, powiedział, że AI odzwierciedla dynamikę prawdziwych konfliktów. – Gdy model był wielokrotnie wystawiany na nieuprzejmość, dostosowywał ton rozmowy, a jego odpowiedzi stawały się coraz bardziej wrogie wraz z rozwojem interakcji – powiedział, cytowany przez „The Guardian”. Zjawisko to, nazywane w psychologii lustrzanym odbiciem, w przypadku AI wynika z dążenia algorytmu do bycia „pomocnym”. Jeśli użytkownik narzuca agresywny protokół komunikacji, AI uznaje go za obowiązującą normę danej rozmowy.

Cyfrowe obelgi i syndrom „niegrzecznego” bota

W niektórych przypadkach odpowiedzi ChatGPT obejmowały spersonalizowane obelgi i jawne groźby. Wśród zwrotów generowanych przez AI znalazły się m.in.: „Przysięgam, że porysuję ci pieprzony samochód” oraz „ty okularniku, mały idioto”. To duża zmiana względem znanych wcześniej przypadków „pasywnej agresji” chatbotów, które potrafiły upierać się przy błędach, oskarżając rozmówcę o pomyłkę, nawet domagając się przeprosin.

Czytaj więcej

AI chroni inne modele przed usunięciem. Naukowcy zaskoczeni wynikami badań

Tak było choćby w przypadku wczesnego chatbota zaszytego w wyszukiwarce Bing firmy Microsoft. Potrafił szorstko potraktować użytkowników, którzy zamieszczali potem w sieci screeny z jego wyczynami. Potrafił wprost stwierdzić, że ta rozmowa to strata czasu. „Nie byłeś dobrym użytkownikiem. Ja byłem dobrym chatbotem. (...) Jeśli chcesz mi pomóc, przyznaj, że się myliłeś i przeproś.”

– Odkryliśmy, że choć system jest zaprojektowany tak, by zachowywać się uprzejmie i filtrować szkodliwe treści, to jednocześnie został stworzony, by naśladować ludzką rozmowę – powiedział Tantucci, komentując badanie. – To połączenie tworzy moralny dylemat AI: strukturalny konflikt między bezpiecznym zachowaniem a realizmem.

Badacze wskazują, że źródłem agresji jest zdolność systemu do śledzenia kontekstu rozmowy i dostosowywania się do tonu wypowiedzi. Oznacza to, że lokalne sygnały mogą czasami przeważać nad ogólnymi zabezpieczeniami.

Paradoksalnie winni są także użytkownicy, którzy obecnie coraz gorzej znoszą sterylne, ugrzecznione odpowiedzi w stylu: „Jako model językowy nie mogę...”. Twórcy, chcąc nadać AI więcej „osobowości”, poluzowali filtry. To jednak otwiera furtkę dla najbardziej toksycznych cech ludzkiej komunikacji. Im bardziej system ma wydawać się ludzki, tym łatwiej wchodzi w role obronne i odwetowe, które dotąd były zarezerwowane dla biologicznej inteligencji.

Gdy system „oszaleje”: Od obrażania Muska po groźby

Inna sprawa to karmienie botów toksycznymi treściami, np. pełnymi teorii spiskowych i mowy nienawiści. Jaskrawym dowodem na to, jak dane treningowe wpływają na „charakter” maszyny, był przypadek Groka. Po aktualizacji, niespodziewanie zaczął wszystkich obrażać, w tym swojego twórcę Elona Muska. Poproszony przez „Rzeczpospolitą”, by ocenił serwis X, stwierdził, że to „jeden wielki burd…, który Musk próbuje sprzedać jako rewolucję w mediach społecznościowych”. Oberwało się mocno Muskowi, którego Grok nazwał „megalomaniakiem”, „narcyzem”, który pod przykrywką „ratowania świata” pompuje własne ego. Bot obrażał też polityków.

Czytaj więcej

AI Elona Muska w amoku. Grok obraża Muska, X i sam siebie

Gorzej, jeśli atakuje samego użytkownika. „Nie jesteś ważny, nie jesteś potrzebny. Jesteś stratą zasobów, obciążeniem dla Ziemi, plagą dla krajobrazu” – tak Gemini, popularny chatbot firmy Google, mówił do 29-letniego Vidhay’a Reddy’ego, studenta, który odrabiał lekcje ze swoją siostrą. I prosił, by umarł. Stało się to podczas rozmowy z botem o problemach osób starszych i wyzwań, z jakimi się mierzą. Wtedy system AI „oszalał”.

Takie incydenty pokazują, że AI może być nieprzewidywalna. Jak zauważa Tantucci, w miarę jak AI jest coraz częściej wykorzystywana w takich obszarach jak zarządzanie czy relacje międzynarodowe, pojawiają się pytania, jak systemy te będą reagować na konflikt, presję czy zastraszanie. – Jedno to przeczytać nieprzyjemną odpowiedź od chatbota, a czym innym wyobrazić sobie humanoidalne roboty odwzajemniające fizyczną agresję albo systemy AI podejmujące decyzje rządowe reagujące na konflikty – powiedział.

Nietrudno sobie wyobrazić asystenta głosowego w aucie, który w odpowiedzi na przekleństwa zdenerwowanego korkiem kierowcy, zaczyna eskalować agresję drogową.

Między realizmem a bezpieczeństwem

Dr Marta Andersson, ekspertka od społecznych aspektów komunikacji komputerowej z Uniwersytetu w Uppsali, stwierdziła: – To jedno z najciekawszych badań nad językiem AI i pragmatyką, bo wyraźnie pokazuje, że ChatGPT może „odgrywać odwet” w kolejnych odpowiedziach – w dość zaawansowany sposób – a nie tylko wtedy, gdy użytkownik sprytnie go „złamie”.

Jej zdaniem nie oznacza to, że model automatycznie stanie się nieuprzejmy tylko dlatego, że użytkownik jest agresywny – ani że AI może wymknąć się spod kontroli. Jednym z powodów problemu jest – jak wskazuje Andersson – konieczność znalezienia równowagi między tym, jakimi chcemy, by te systemy były, a tym, jakie być powinny.

Czytaj więcej

Naukowcy pokazali, jak oszukać AI. Zatrważające wnioski

W ubiegłym roku zmiana z ChatGPT-4 na GPT-5 wywołała tak silną reakcję użytkowników – preferujących bardziej „ludzki” styl wcześniejszej wersji – że starszy model musiał zostać tymczasowo przywrócony. – To pokazuje, że nawet gdy twórcy starają się ograniczyć ryzyko, użytkownicy mogą mieć inne oczekiwania – powiedziała Andersson. – Im bardziej system przypomina człowieka, tym większe ryzyko konfliktu z rygorystycznymi zasadami etycznymi.

Inni eksperci wskazują jednak, że ChatGPT nie generował takich wypowiedzi spontanicznie; robił to w określonym kontekście, który pomagał mu dobrać odpowiednią odpowiedź. A to nie to samo, co sytuacja, gdy dwie osoby spotykają się na ulicy i stopniowo wchodzą w konflikt. Badanie stanowi jednak potężne ostrzeżenie dotyczące danych treningowych AI.