Która AI halucynuje i popełnia najwięcej błędów? Zaskakujące wyniki badania

Chińskie systemy generatywnej sztucznej inteligencji Qwen i DeepSeek, o których w ostatnich tygodniach stało się wyjątkowo głośno, nie są wcale tak dobre, jak mogłoby się wydawać. Przodują w rankingu zawodności.

Publikacja: 19.02.2025 14:09

Chińskie modele mają szczególny problem z halucynowaniem AI

Chińskie modele mają szczególny problem z halucynowaniem AI

Foto: Andrea Verdelli/Bloomberg

Wszystkie duże modele językowe (LLM) popełniają błędy lub wprowadzają w błąd. Problem tzw. halucynowania przydarza się nawet najnowszym i najbardziej zaawansowanym systemom AI, które są zdolne do niezwykle szybkiego analizowania i wnioskowania czy rozwiązywania zaawansowanych zadań matematycznych.

Która AI halucynuje? A która popełnia najmniej błędów?

Jak się okazuje, niektóre z narzędzi generatywnej sztucznej inteligencji kłamią częściej niż inne. Badacze sprawdzili, gdzie takie błędy występują sporadycznie, a gdzie ryzyko ich wystąpienia jest szczególnie wysokie. W zestawieniu nazywanym Tabelą Liderów Halucynacji, opracowanym przez Vectarę, firmę z branży AI, uwzględniono 25 najpopularniejszych modeli, w tym tych od Open AI, Google, czy Amazon.

Czytaj więcej

Elon Musk wypuszcza nową AI. „Najmądrzejsza na Ziemi”

Wedle najnowszych badań (stan na I połowę lutego), w tym niechlubnym rankingu na prowadzenia znalazły się LLM-y z Chin. Prym wiodą m.in. Qwen i DeepSeek. Ten ostatni, choć premierę miał ledwie pod koniec stycznia, momentalnie okrzyknięto „punktem zwrotnym w historii AI”. Model open source osiągnął poziom najlepszych modeli AI tworzonych w USA, ale przy „nieznacznym” zapotrzebowaniu na procesory graficzne. Aby trenować swoje modele AI, firma High-Flyer Quant (fundusz stojący za DeepSeek) zabezpieczyła ponad 10 tys. procesorów graficznych Nvidia.

Chińczycy obniżyli koszty, ale nie liczbę błędów

Chiński projekt był w stanie obniżyć koszt trenowania modeli z przeszło 100 mln dol. (jak jest to w przypadku narzędzi LLM tworzonych przez big techy) do 5 mln dol. Choć później kwestionowano prawdziwość tych danych, DeepSeek i tak stał się hitem. Tyle że model ten (V 2.5) należy do grona liderów halucynacji. Badacze podają, że opracowany przez Vectarę model oceny halucynacji (HHEM śledzi, które modele udzielają fałszywych odpowiedzi podczas streszczania dokumentów, a które trzymają się faktów) wskazał, że współczynnik błędu w przypadku DeepSeek sięga 2,4 proc. Stawia go to na 5. miejscu w tym zestawieniu. Jeszcze gorzej wypadają LLM-y od Alibaby. Mowa o Qwen 2.5 Max i Qwen 2.5 – 7B Instruct, które uplasowały się odpowiednio na 1. I 2. pozycji wśród modeli najczęściej wprowadzających w błąd (ze współczynnikiem 2,9 i 2,8 proc.). Co ciekawe, równie słabo (ex aequo) wypadły: „dziecko” Elona Muska – xAI 2 Vision oraz Jamba 1.5 mini, model od izraelskiej firmy AI21.

Czytaj więcej

Unia Europejska chce stworzyć rywala dla DeepSeeka i ChatGPT. Ale bez Polski

Warto podkreślić, że w rankingu Vectary najlepiej wypadły systemy AI od Google i OpenAI. Najmniej halucynują modele Gemini: Flash 2.0 (współczynnik 0,7 proc.) i 2.0 Pro (0,8 proc.) oraz narzędzie o3 mini, stworzone przez zespół Sama Altmana (0,8 proc.).

Technologie
Kilka minut zamiast miliona lat. Superkomputery pokonane
Technologie
Humanoidy wchodzą do sklepów? Sprzedaż rusza lada moment, znamy ceny
Technologie
Kosmiczne ceny za dostęp do Manusa. Przełomowe narzędzie z Chin króluje na czarnym rynku
Technologie
Król rapu i lekarz kotów. Przybywa niezwykłych zastosowań AI
Materiał Promocyjny
Współpraca na Bałtyku kluczem do bezpieczeństwa energetycznego
Technologie
Naukowcy stworzyli skórę o niezwykłych właściwościach. Przełom w medycynie i robotyce
Materiał Promocyjny
Sezon motocyklowy wkrótce się rozpocznie, a Suzuki rusza z 19. edycją szkoleń