Z tego artykułu dowiesz się:
- Jaką skuteczność wykazuje ChatGPT w ocenie prawdziwości hipotez naukowych?
- W jakich obszarach sztuczna inteligencja napotyka największe wyzwania przy identyfikacji fałszywych informacji?
- Czy systemy AI dostarczają spójnych odpowiedzi na wielokrotnie zadawane, identyczne pytania?
- Jakie konsekwencje dla biznesu i podejmowania decyzji wynikają z obecnych ograniczeń generatywnej AI?
Profesor Mesut Cicek z Washington State University wraz ze swoim zespołem wielokrotnie oceniał ChatGPT, przedstawiając mu hipotezy zaczerpnięte z badań naukowych. Zadaniem AI było określenie, czy dane stwierdzenie znajduje potwierdzenie w badaniach – czyli ocenienie, czy jest prawdziwe, czy fałszywe.
Łącznie badacze przetestowali ponad 700 hipotez, a każdą z nich przesłali do systemu 10 razy, aby sprawdzić spójność odpowiedzi.
Czytaj więcej
Mieliśmy się bać, że AI przejmie władzę nad światem, wywoła wojnę nuklearną albo przynajmniej zabierze nam wszystkim pracę. Ale zamiast terminatora...
ChatGPT pod lupą naukowców. Jak AI radzi sobie z oceną prawdy
Portal SciTechDaily relacjonuje, że w pierwszym eksperymencie z 2024 r. ChatGPT odpowiadał poprawnie w 76,5 proc. przypadków. Gdy badanie powtórzono w 2025 r., trafność nieznacznie wzrosła do 80 proc. Jednak po uwzględnieniu wpływu losowego zgadywania wyniki okazały się znacznie mniej wiarygodne. AI było tylko o około 60 proc. lepsze niż przypadek, co badacze określili jako wynik bliższy słabej ocenie niż solidnej skuteczności.