Wszystkie duże modele językowe (LLM) popełniają błędy lub wprowadzają w błąd. Problem tzw. halucynowania przydarza się nawet najnowszym i najbardziej zaawansowanym systemom AI, które są zdolne do niezwykle szybkiego analizowania i wnioskowania czy rozwiązywania zaawansowanych zadań matematycznych.
Która AI halucynuje? A która popełnia najmniej błędów?
Jak się okazuje, niektóre z narzędzi generatywnej sztucznej inteligencji kłamią częściej niż inne. Badacze sprawdzili, gdzie takie błędy występują sporadycznie, a gdzie ryzyko ich wystąpienia jest szczególnie wysokie. W zestawieniu nazywanym Tabelą Liderów Halucynacji, opracowanym przez Vectarę, firmę z branży AI, uwzględniono 25 najpopularniejszych modeli, w tym tych od Open AI, Google, czy Amazon.
Czytaj więcej
Premiera najnowszego modelu generatywnej sztucznej inteligencji Grok 3 przyciągnęła ponad 2 mln osób, które na żywo śledziły ją na platformie X. Chatbot ma bić konkurencję pod względem rozumowania i rozwiązywania problemów.
Wedle najnowszych badań (stan na I połowę lutego), w tym niechlubnym rankingu na prowadzenia znalazły się LLM-y z Chin. Prym wiodą m.in. Qwen i DeepSeek. Ten ostatni, choć premierę miał ledwie pod koniec stycznia, momentalnie okrzyknięto „punktem zwrotnym w historii AI”. Model open source osiągnął poziom najlepszych modeli AI tworzonych w USA, ale przy „nieznacznym” zapotrzebowaniu na procesory graficzne. Aby trenować swoje modele AI, firma High-Flyer Quant (fundusz stojący za DeepSeek) zabezpieczyła ponad 10 tys. procesorów graficznych Nvidia.
Chińczycy obniżyli koszty, ale nie liczbę błędów
Chiński projekt był w stanie obniżyć koszt trenowania modeli z przeszło 100 mln dol. (jak jest to w przypadku narzędzi LLM tworzonych przez big techy) do 5 mln dol. Choć później kwestionowano prawdziwość tych danych, DeepSeek i tak stał się hitem. Tyle że model ten (V 2.5) należy do grona liderów halucynacji. Badacze podają, że opracowany przez Vectarę model oceny halucynacji (HHEM śledzi, które modele udzielają fałszywych odpowiedzi podczas streszczania dokumentów, a które trzymają się faktów) wskazał, że współczynnik błędu w przypadku DeepSeek sięga 2,4 proc. Stawia go to na 5. miejscu w tym zestawieniu. Jeszcze gorzej wypadają LLM-y od Alibaby. Mowa o Qwen 2.5 Max i Qwen 2.5 – 7B Instruct, które uplasowały się odpowiednio na 1. I 2. pozycji wśród modeli najczęściej wprowadzających w błąd (ze współczynnikiem 2,9 i 2,8 proc.). Co ciekawe, równie słabo (ex aequo) wypadły: „dziecko” Elona Muska – xAI 2 Vision oraz Jamba 1.5 mini, model od izraelskiej firmy AI21.