Z tego artykułu dowiesz się:

  • Jaką skuteczność wykazuje ChatGPT w ocenie prawdziwości hipotez naukowych?
  • W jakich obszarach sztuczna inteligencja napotyka największe wyzwania przy identyfikacji fałszywych informacji?
  • Czy systemy AI dostarczają spójnych odpowiedzi na wielokrotnie zadawane, identyczne pytania?
  • Jakie konsekwencje dla biznesu i podejmowania decyzji wynikają z obecnych ograniczeń generatywnej AI?

Profesor Mesut Cicek z Washington State University wraz ze swoim zespołem wielokrotnie oceniał ChatGPT, przedstawiając mu hipotezy zaczerpnięte z badań naukowych. Zadaniem AI było określenie, czy dane stwierdzenie znajduje potwierdzenie w badaniach – czyli ocenienie, czy jest prawdziwe, czy fałszywe.

Łącznie badacze przetestowali ponad 700 hipotez, a każdą z nich przesłali do systemu 10 razy, aby sprawdzić spójność odpowiedzi.

Czytaj więcej

Największe wpadki sztucznej inteligencji. Kto zdobędzie AI Darwin Award 2025?

ChatGPT pod lupą naukowców. Jak AI radzi sobie z oceną prawdy

Portal SciTechDaily relacjonuje, że w pierwszym eksperymencie z 2024 r. ChatGPT odpowiadał poprawnie w 76,5 proc. przypadków. Gdy badanie powtórzono w 2025 r., trafność nieznacznie wzrosła do 80 proc. Jednak po uwzględnieniu wpływu losowego zgadywania wyniki okazały się znacznie mniej wiarygodne. AI było tylko o około 60 proc. lepsze niż przypadek, co badacze określili jako wynik bliższy słabej ocenie niż solidnej skuteczności.

System miał szczególne trudności z identyfikowaniem fałszywych stwierdzeń – poprawnie oznaczał je jedynie w 16,4 proc. przypadków. Wykazywał też niespójność. Przy zadaniu dokładnie tego samego pytania 10 razy ChatGPT udzielał spójnych odpowiedzi jedynie w około 73 proc. przypadków.

Czytaj więcej:

Raporty ekonomiczne Szokujące wyniki testu AI. Polskie modele daleko za Google i Chinami

Pro

– Nie mówimy tylko o trafności, ale także o niespójności, bo jeśli zadajesz to samo pytanie wielokrotnie, otrzymujesz różne odpowiedzi – powiedział Mesut Cicek, profesor nadzwyczajny w Katedrze Marketingu i Biznesu Międzynarodowego w Carson College of Business na WSU oraz główny autor publikacji.

– Użyliśmy 10 identycznych zapytań. Wszystko było takie samo. Raz system odpowiadał „prawda”, potem „fałsz”. Prawda, fałsz, fałsz, prawda. Były przypadki, w których było pięć odpowiedzi „prawda” i pięć „fałsz” – wyjaśnił.

Niespójność i błędy AI. ChatGPT ma problem z fałszywymi stwierdzeniami

Badanie, opublikowane w Rutgers Business Review, podkreśla znaczenie ostrożności przy wykorzystywaniu AI do podejmowania ważnych decyzji, zwłaszcza tych wymagających niuansów lub złożonego rozumowania. Choć generatywna sztuczna inteligencja potrafi tworzyć płynne i przekonujące wypowiedzi, nie oznacza to, że rzeczywiście rozumie omawiane zagadnienia.

Czytaj więcej

Nowa europejska AI ma rozumieć świat. Miliard dolarów dla rywala ChatGPT

Profesor Cicek zaznaczył, że wyniki sugerują, iż sztuczna inteligencja ogólna, zdolna do rzeczywistego rozumowania, może być bardziej odległa, niż się powszechnie zakłada.

– Obecne narzędzia AI nie rozumieją świata tak jak my – nie mają „mózgu” – powiedział. AI jedynie zapamiętuje i może dostarczyć pewnych wskazówek, ale nie rozumie tego, o czym mówi.

Zespół przeanalizował 719 hipotez z artykułów naukowych opublikowanych w czasopismach biznesowych od 2021 r. Ocena, czy badania potwierdzają daną hipotezę, jest często złożona i zależy od wielu czynników wpływających na wynik. Sprowadzenie tej złożoności do prostej odpowiedzi „prawda” lub „fałsz” wymaga starannego rozumowania.

Czytaj więcej

Chatboty pomagają planować zamachy i strzelaniny. Szokujący raport

Badacze testowali darmową wersję ChatGPT-3.5 w 2024 r. oraz zaktualizowaną wersję ChatGPT-5 mini w 2025 r. Ogólnie wyniki były podobne dla obu wersji. Po uwzględnieniu losowości (50 proc. szans na trafną odpowiedź) skuteczność AI była jedynie o około 60 proc. wyższa niż przypadek w obu latach – informuje portal SciTechDaily.

Ograniczenia sztucznej inteligencji. Dlaczego AI nie rozumie jak człowiek

Wyniki ujawniają istotne ograniczenie systemów opartych na dużych modelach językowych. Choć potrafią one generować dopracowane i przekonujące odpowiedzi, często mają trudności z głębszym rozumowaniem. Może to prowadzić do odpowiedzi, które brzmią wiarygodnie, ale są błędne – podkreślił profesor Cicek.

Czytaj więcej

Czy AI osłabia zdolność myślenia? Naukowiec z Harvardu bije na alarm

Na podstawie tych wyników badacze zalecają, aby koniecznie sprawdzać i weryfikować treści generowane przez AI i podchodzić do nich z dużą ostrożnością.

Choć badanie dotyczyło ChatGPT, podobne testy innych systemów AI przyniosły zbliżone wyniki. Badanie to wpisuje się również we wcześniejsze prace wskazujące na problem „hype’u” wokół sztucznej inteligencji. Duże badanie z 2024 r. wykazało, że konsumenci rzadziej kupują produkty, gdy są one reklamowane z naciskiem na wykorzystanie AI.