Reklama

AI nie odróżnia prawdy od fałszu? Wyniki badania zaskakują

ChatGPT potrafi brzmieć przekonująco, ale nowe badanie pokazuje, że ma poważne problemy z odróżnianiem prawdy od fałszu. Naukowcy wskazują na błędy, niespójność odpowiedzi i ograniczenia w rozumowaniu, które mogą mieć znaczenie przy korzystaniu z AI.
Naukowcy sprawdzili ChatGPT. Wyniki mogą niepokoić użytkowników

Naukowcy sprawdzili ChatGPT. Wyniki mogą niepokoić użytkowników

Foto: Andrey Rudakov/Bloomberg

Z tego artykułu dowiesz się:

  • Jaką skuteczność wykazuje ChatGPT w ocenie prawdziwości hipotez naukowych?
  • W jakich obszarach sztuczna inteligencja napotyka największe wyzwania przy identyfikacji fałszywych informacji?
  • Czy systemy AI dostarczają spójnych odpowiedzi na wielokrotnie zadawane, identyczne pytania?
  • Jakie konsekwencje dla biznesu i podejmowania decyzji wynikają z obecnych ograniczeń generatywnej AI?

Profesor Mesut Cicek z Washington State University wraz ze swoim zespołem wielokrotnie oceniał ChatGPT, przedstawiając mu hipotezy zaczerpnięte z badań naukowych. Zadaniem AI było określenie, czy dane stwierdzenie znajduje potwierdzenie w badaniach – czyli ocenienie, czy jest prawdziwe, czy fałszywe.

Łącznie badacze przetestowali ponad 700 hipotez, a każdą z nich przesłali do systemu 10 razy, aby sprawdzić spójność odpowiedzi.

Czytaj więcej

Największe wpadki sztucznej inteligencji. Kto zdobędzie AI Darwin Award 2025?

ChatGPT pod lupą naukowców. Jak AI radzi sobie z oceną prawdy

Portal SciTechDaily relacjonuje, że w pierwszym eksperymencie z 2024 r. ChatGPT odpowiadał poprawnie w 76,5 proc. przypadków. Gdy badanie powtórzono w 2025 r., trafność nieznacznie wzrosła do 80 proc. Jednak po uwzględnieniu wpływu losowego zgadywania wyniki okazały się znacznie mniej wiarygodne. AI było tylko o około 60 proc. lepsze niż przypadek, co badacze określili jako wynik bliższy słabej ocenie niż solidnej skuteczności.

Reklama
Reklama

System miał szczególne trudności z identyfikowaniem fałszywych stwierdzeń – poprawnie oznaczał je jedynie w 16,4 proc. przypadków. Wykazywał też niespójność. Przy zadaniu dokładnie tego samego pytania 10 razy ChatGPT udzielał spójnych odpowiedzi jedynie w około 73 proc. przypadków.

Czytaj więcej:

Raporty ekonomiczne Szokujące wyniki testu AI. Polskie modele daleko za Google i Chinami

Pro

– Nie mówimy tylko o trafności, ale także o niespójności, bo jeśli zadajesz to samo pytanie wielokrotnie, otrzymujesz różne odpowiedzi – powiedział Mesut Cicek, profesor nadzwyczajny w Katedrze Marketingu i Biznesu Międzynarodowego w Carson College of Business na WSU oraz główny autor publikacji.

– Użyliśmy 10 identycznych zapytań. Wszystko było takie samo. Raz system odpowiadał „prawda”, potem „fałsz”. Prawda, fałsz, fałsz, prawda. Były przypadki, w których było pięć odpowiedzi „prawda” i pięć „fałsz” – wyjaśnił.

Niespójność i błędy AI. ChatGPT ma problem z fałszywymi stwierdzeniami

Badanie, opublikowane w Rutgers Business Review, podkreśla znaczenie ostrożności przy wykorzystywaniu AI do podejmowania ważnych decyzji, zwłaszcza tych wymagających niuansów lub złożonego rozumowania. Choć generatywna sztuczna inteligencja potrafi tworzyć płynne i przekonujące wypowiedzi, nie oznacza to, że rzeczywiście rozumie omawiane zagadnienia.

Czytaj więcej

Nowa europejska AI ma rozumieć świat. Miliard dolarów dla rywala ChatGPT
Reklama
Reklama

Profesor Cicek zaznaczył, że wyniki sugerują, iż sztuczna inteligencja ogólna, zdolna do rzeczywistego rozumowania, może być bardziej odległa, niż się powszechnie zakłada.

– Obecne narzędzia AI nie rozumieją świata tak jak my – nie mają „mózgu” – powiedział. AI jedynie zapamiętuje i może dostarczyć pewnych wskazówek, ale nie rozumie tego, o czym mówi.

Zespół przeanalizował 719 hipotez z artykułów naukowych opublikowanych w czasopismach biznesowych od 2021 r. Ocena, czy badania potwierdzają daną hipotezę, jest często złożona i zależy od wielu czynników wpływających na wynik. Sprowadzenie tej złożoności do prostej odpowiedzi „prawda” lub „fałsz” wymaga starannego rozumowania.

Czytaj więcej

Chatboty pomagają planować zamachy i strzelaniny. Szokujący raport

Badacze testowali darmową wersję ChatGPT-3.5 w 2024 r. oraz zaktualizowaną wersję ChatGPT-5 mini w 2025 r. Ogólnie wyniki były podobne dla obu wersji. Po uwzględnieniu losowości (50 proc. szans na trafną odpowiedź) skuteczność AI była jedynie o około 60 proc. wyższa niż przypadek w obu latach – informuje portal SciTechDaily.

Ograniczenia sztucznej inteligencji. Dlaczego AI nie rozumie jak człowiek

Wyniki ujawniają istotne ograniczenie systemów opartych na dużych modelach językowych. Choć potrafią one generować dopracowane i przekonujące odpowiedzi, często mają trudności z głębszym rozumowaniem. Może to prowadzić do odpowiedzi, które brzmią wiarygodnie, ale są błędne – podkreślił profesor Cicek.

Reklama
Reklama

Czytaj więcej

Czy AI osłabia zdolność myślenia? Naukowiec z Harvardu bije na alarm

Na podstawie tych wyników badacze zalecają, aby koniecznie sprawdzać i weryfikować treści generowane przez AI i podchodzić do nich z dużą ostrożnością.

Choć badanie dotyczyło ChatGPT, podobne testy innych systemów AI przyniosły zbliżone wyniki. Badanie to wpisuje się również we wcześniejsze prace wskazujące na problem „hype’u” wokół sztucznej inteligencji. Duże badanie z 2024 r. wykazało, że konsumenci rzadziej kupują produkty, gdy są one reklamowane z naciskiem na wykorzystanie AI.

AI
Chatbot AI przeanalizuje wyniki badań użytkownika. Eksperci ostrzegają przed ryzykiem
Materiał Promocyjny
Jedna rata i większa kontrola nad budżetem domowym?
Materiał Promocyjny
Bank Pekao przyjął Plan Dekarbonizacji
AI
AI i roboty wchodzą na okręty wojenne. Rewolucja w marynarce USA
AI
InPost wchodzi w AI. Asystent zakupowy i darmowe dostawy mają namieszać na rynku
AI
Ludzie mówią „dość AI”. „Human-made” i „AI-free” robią furorę na świecie
Promowane treści
Reklama
Reklama
REKLAMA: automatycznie wyświetlimy artykuł za 15 sekund.
Reklama