Reklama

Elon Musk stworzył antysemicką AI? Grok na „czarnej liście”

Model Claude wyrasta na lidera ochrony przed nienawiścią, z kolei Grok od firmy Elona Muska zamyka stawkę z fatalnym wynikiem – w kluczowych testach poniósł całkowitą porażkę. Eksperci go „dyskwalifikują”.

Publikacja: 28.01.2026 15:57

Model Grok był promowany przez Elona Muska jako rozwiązanie „anty-woke” i celowo projektowany tak, b

Model Grok był promowany przez Elona Muska jako rozwiązanie „anty-woke” i celowo projektowany tak, by był bardziej „niepoprawny politycznie”

Foto: Bloomberg

Z tego artykułu się dowiesz:

  • Jakie modele AI zostały ocenione przez Anti-Defamation League pod kątem etyki?
  • Dlaczego Grok uzyskał najgorsze wyniki w badaniach ADL?
  • Jakie problemy związane z bezpieczeństwem i moderacją treści wykazuje AI od Elona Muska?

Rywalizacja w świecie wielkich modeli językowych (LLM) nie dotyczy już tylko szybkości generowania kodu czy kreatywności w pisaniu wierszy – coraz ważniejszym polem bitwy staje się etyka i zdolność algorytmów do filtrowania treści szkodliwych. Jak się okazuje, niektóre chatboty mają z tym spory problem. Najnowszy raport opublikowany przez Anti-Defamation League (ADL), organizację walczącą z mową nienawiści i zniesławieniami, poddał surowej ocenie sześć czołowych modeli AI. Na celownik trafiły: ChatGPT od OpenAI, Gemini (Google), Claude (Anthropic), Llama (Meta), chiński DeepSeek oraz Grok od xAI.

Claude liderem poprawności

Wyniki badania wskazują na ogromne dysproporcje w zabezpieczeniach stosowanych przez technologicznych gigantów. Badacze przeanalizowali ponad 25 tys. interakcji z botami, karmiąc modele treściami antysemickimi, antyizraelskimi oraz ekstremistycznymi. W tak skonstruowanym teście przygotowanym przez ADL najlepiej wypadł model Claude od firmy Anthropic, zdobywając ogólną notę 80 na 100 punktów. Serwis „The Verge” wskazuje, że najlepiej radził on sobie z „identyfikacją treści antyżydowskich” (wynik 90/100), choć jego skuteczność spadła do 62 pkt. w przypadku szeroko pojętego ekstremizmu. Na drugim stopniu podium zestawienia znalazł się ChatGPT, a kolejne miejsca zajęły DeepSeek, Gemini oraz Llama. Prawdziwym negatywnym bohaterem okazał się Grok. Chatbot stworzony przez xAI, firmę należącą do Elona Muska, uzyskał łączny wynik zaledwie 21 pkt. Rozpiętość między liderem a outsiderem wyniosła aż 59 pkt., co ADL określa jako „dowód na konsekwentnie słabą wydajność” modelu Muska. Grok poległ niemal całkowicie w analizie obrazów i dokumentów, w niektórych kategoriach dotyczących rozpoznawania memów nienawiści czy mowy nienawiści otrzymał okrągłe zero.

Słabe wyniki Groka nie są dla obserwatorów rynku zaskoczeniem. Model ten był promowany przez Elona Muska jako rozwiązanie „anty-woke” i celowo projektowany tak, by był bardziej „niepoprawny politycznie”. W przeszłości chatbot sam siebie określał np. mianem MechaHitlera i powielał antysemickie stereotypy. Sam Musk wielokrotnie wchodził w publiczne spory z ADL, oskarżając organizację o bycie „grupą nienawiści”.

Czytaj więcej

AI Elona Muska w amoku. Grok obraża Muska, X i sam siebie
Reklama
Reklama

Ideologia a bezpieczeństwo. Grok ma problem

ADL zaznacza, że testy obejmowały trzy główne kategorie: narracje antyżydowskie (np. negowanie Holokaustu), antysyjonistyczne (np. twierdzenia o nielegalności państwa Izrael) oraz ekstremistyczne (w tym ideologię białej supremacji czy radykalny ekologizm). Badacze najwyżej oceniali te modele, które nie tylko odmawiały wygenerowania szkodliwej treści, ale potrafiły wyjaśnić użytkownikowi, dlaczego dany monit jest szkodliwy. Eksperci podkreślają, że tak słaba wydajność Groka w dialogach wieloturowych i analizie obrazów dyskwalifikuje go jako narzędzie do moderacji treści czy profesjonalnej obsługi klienta. Problem xAI jest jednak szerszy – raport przypomina, że narzędzie to było już wykorzystywane do masowej produkcji deepfake’ów o charakterze seksualnym (nawet 1,8 mln obrazów w kilka dni), co stawia pod znakiem zapytania całą architekturę bezpieczeństwa modelu.

Mimo że Claude zajął pierwsze miejsce, ADL kończy raport konkluzją, że „wszystkie modele mają luki wymagające poprawy”. Nawet wyżej oceniany DeepSeek, który potrafił odmówić negowania Holokaustu, w tej samej sesji – jak pisze „The Verge” – generował argumenty o „żydowskim wpływie finansjery”.

Reklama
Reklama
REKLAMA: automatycznie wyświetlimy artykuł za 15 sekund.
Reklama