Naukowcy z singapurskiej firmy Sapient chcieli dowieść, że sztuczna inteligencja nie musi być olbrzymim modelem, by efektywnie rozumować. Wygląda na to, że im się udało – stworzony przez nich Hierarchical Reasoning Model (HRM) osiągnął zaskakująco dobre wyniki w testach logicznego myślenia. AI składająca się zaledwie z 27 mln parametrów, stanowi ostry kontrast dla wielkich modeli językowych, których architektura opiera się na miliardach, a nawet bilionach parametrów, jak w przypadku GPT-5. Mimo tak ogromnej różnicy w skali, to właśnie mniejszy HRM okazał się skuteczniejszy w wymagającym teście ARC-AGI-1. Zdobył 40,3 proc. poprawnych odpowiedzi, gdy narzędzia OpenAI – 34,5 proc., a Claude 3.7 od Anthropic – 21,2 proc. W tym samym zestawieniu chiński DeepSeek R1 uzyskał zaledwie 15,8 proc.
Bot na wzór ludzkiego mózgu
Okazuje się, że sekret wydajności HRM tkwi w jego architekturze, która naśladuje hierarchiczne przetwarzanie informacji w ludzkim mózgu. System składa się z dwóch modułów – pierwszy, wysokiego poziomu, odpowiada za powolne, abstrakcyjne planowanie, zaś drugi, niskiego poziomu, zajmuje się szybkimi i szczegółowymi obliczeniami. Taka dwupoziomowa struktura pozwala modelowi na rozwiązywanie problemów w jednym „przebiegu”, bez konieczności nadzorowania pośrednich etapów rozumowania. Jak tłumaczy Mayukh Deb z Georgia Tech, pracujący nad podobnymi badaniami, „modele AI są niestrukturalne, podczas gdy mózgi są niezwykle zorganizowane”.
Czytaj więcej
Premiera nowego ChatGPT rozczarowała, a wielu ekspertów ostrzega, że tempo rozwoju AI wyraźnie zw...
HRM działa, jak to nazwano, w krótkich „wybuchach myślenia”, iteracyjnie analizując problem i decydując, czy kontynuować obliczenia, czy przedstawić ostateczną odpowiedź. To podejście pozwoliło mu osiągnąć niemal perfekcyjne wyniki w rozwiązywaniu sudoku i znajdowaniu dróg w labiryntach. A należy zaznaczyć, iż w takich zadaniach konwencjonalne LLM-y kompletnie sobie nie radzą.
Trening AI ważniejszy od architektury modelu
Wprowadzony w marcu jeszcze trudniejszy benchmark ARC-AGI-2 dodatkowo uwypuklił przewagę nowego podejścia. HRM uzyskał w nim 5 proc., gdy konkurenci jak o3-mini-high i Claude 3.7 odpowiednio 3 i 0,9 proc. Choć wyniki te wciąż znacząco odbiegają od ludzkich możliwości (ok. 60 proc.), pokazują potencjał drzemiący w bardziej efektywnych architekturach.