Z tego artykułu dowiesz się:
- Jaką skuteczność wykazuje ChatGPT w ocenie prawdziwości hipotez naukowych?
- W jakich obszarach sztuczna inteligencja napotyka największe wyzwania przy identyfikacji fałszywych informacji?
- Czy systemy AI dostarczają spójnych odpowiedzi na wielokrotnie zadawane, identyczne pytania?
- Jakie konsekwencje dla biznesu i podejmowania decyzji wynikają z obecnych ograniczeń generatywnej AI?
Profesor Mesut Cicek z Washington State University wraz ze swoim zespołem wielokrotnie oceniał ChatGPT, przedstawiając mu hipotezy zaczerpnięte z badań naukowych. Zadaniem AI było określenie, czy dane stwierdzenie znajduje potwierdzenie w badaniach – czyli ocenienie, czy jest prawdziwe, czy fałszywe.
Łącznie badacze przetestowali ponad 700 hipotez, a każdą z nich przesłali do systemu 10 razy, aby sprawdzić spójność odpowiedzi.
Czytaj więcej
Mieliśmy się bać, że AI przejmie władzę nad światem, wywoła wojnę nuklearną albo przynajmniej zabierze nam wszystkim pracę. Ale zamiast terminatora...
ChatGPT pod lupą naukowców. Jak AI radzi sobie z oceną prawdy
Portal SciTechDaily relacjonuje, że w pierwszym eksperymencie z 2024 r. ChatGPT odpowiadał poprawnie w 76,5 proc. przypadków. Gdy badanie powtórzono w 2025 r., trafność nieznacznie wzrosła do 80 proc. Jednak po uwzględnieniu wpływu losowego zgadywania wyniki okazały się znacznie mniej wiarygodne. AI było tylko o około 60 proc. lepsze niż przypadek, co badacze określili jako wynik bliższy słabej ocenie niż solidnej skuteczności.
System miał szczególne trudności z identyfikowaniem fałszywych stwierdzeń – poprawnie oznaczał je jedynie w 16,4 proc. przypadków. Wykazywał też niespójność. Przy zadaniu dokładnie tego samego pytania 10 razy ChatGPT udzielał spójnych odpowiedzi jedynie w około 73 proc. przypadków.
Czytaj więcej:
Miały świetnie operować polskim słowem, znać niuanse językowe i historyczne. Rodzima chluba w świecie sztucznej inteligencji – Bielik i PLLum – pol...
Pro
– Nie mówimy tylko o trafności, ale także o niespójności, bo jeśli zadajesz to samo pytanie wielokrotnie, otrzymujesz różne odpowiedzi – powiedział Mesut Cicek, profesor nadzwyczajny w Katedrze Marketingu i Biznesu Międzynarodowego w Carson College of Business na WSU oraz główny autor publikacji.
– Użyliśmy 10 identycznych zapytań. Wszystko było takie samo. Raz system odpowiadał „prawda”, potem „fałsz”. Prawda, fałsz, fałsz, prawda. Były przypadki, w których było pięć odpowiedzi „prawda” i pięć „fałsz” – wyjaśnił.
Niespójność i błędy AI. ChatGPT ma problem z fałszywymi stwierdzeniami
Badanie, opublikowane w Rutgers Business Review, podkreśla znaczenie ostrożności przy wykorzystywaniu AI do podejmowania ważnych decyzji, zwłaszcza tych wymagających niuansów lub złożonego rozumowania. Choć generatywna sztuczna inteligencja potrafi tworzyć płynne i przekonujące wypowiedzi, nie oznacza to, że rzeczywiście rozumie omawiane zagadnienia.
Czytaj więcej
Były główny badacz sztucznej inteligencji w firmie Meta zdobył potężne wsparcie od inwestorów. Jego nowy start-up, zamiast skupiać się na języku, s...
Profesor Cicek zaznaczył, że wyniki sugerują, iż sztuczna inteligencja ogólna, zdolna do rzeczywistego rozumowania, może być bardziej odległa, niż się powszechnie zakłada.
– Obecne narzędzia AI nie rozumieją świata tak jak my – nie mają „mózgu” – powiedział. AI jedynie zapamiętuje i może dostarczyć pewnych wskazówek, ale nie rozumie tego, o czym mówi.
Zespół przeanalizował 719 hipotez z artykułów naukowych opublikowanych w czasopismach biznesowych od 2021 r. Ocena, czy badania potwierdzają daną hipotezę, jest często złożona i zależy od wielu czynników wpływających na wynik. Sprowadzenie tej złożoności do prostej odpowiedzi „prawda” lub „fałsz” wymaga starannego rozumowania.
Czytaj więcej
Zamiast pomagać w zdobywaniu wiedzy, AI podpowiada, jak planować strzelaninę lub krwawy zamach w szkole. Osiem z dziesięciu popularnych chatbotów d...
Badacze testowali darmową wersję ChatGPT-3.5 w 2024 r. oraz zaktualizowaną wersję ChatGPT-5 mini w 2025 r. Ogólnie wyniki były podobne dla obu wersji. Po uwzględnieniu losowości (50 proc. szans na trafną odpowiedź) skuteczność AI była jedynie o około 60 proc. wyższa niż przypadek w obu latach – informuje portal SciTechDaily.
Ograniczenia sztucznej inteligencji. Dlaczego AI nie rozumie jak człowiek
Wyniki ujawniają istotne ograniczenie systemów opartych na dużych modelach językowych. Choć potrafią one generować dopracowane i przekonujące odpowiedzi, często mają trudności z głębszym rozumowaniem. Może to prowadzić do odpowiedzi, które brzmią wiarygodnie, ale są błędne – podkreślił profesor Cicek.
Czytaj więcej
Nadmierne korzystanie z narzędzi sztucznej inteligencji może prowadzić do osłabienia zdolności poznawczych – ostrzega astronom z Harvardu Avi Loeb....
Na podstawie tych wyników badacze zalecają, aby koniecznie sprawdzać i weryfikować treści generowane przez AI i podchodzić do nich z dużą ostrożnością.
Choć badanie dotyczyło ChatGPT, podobne testy innych systemów AI przyniosły zbliżone wyniki. Badanie to wpisuje się również we wcześniejsze prace wskazujące na problem „hype’u” wokół sztucznej inteligencji. Duże badanie z 2024 r. wykazało, że konsumenci rzadziej kupują produkty, gdy są one reklamowane z naciskiem na wykorzystanie AI.