Z tego artykułu dowiesz się:
- Z jakimi ograniczeniami borykają się duże modele językowe przy przetwarzaniu złożonych informacji
- Czym jest faza „snu AI” i jak może rozwiązać problemy LLM-ów.
- W jaki sposób biologiczne procesy ludzkiego mózgu stały się inspiracją dla nowej architektury systemów AI.
To odkrycie może całkowicie zmienić sposób, w jaki projektujemy i użytkujemy zaawansowane systemy sztucznej inteligencji. Zaawansowane algorytmy, które znamy z codziennej pracy, działają w trybie ciągłym – użytkownik wpisuje zapytanie, a maszyna natychmiast generuje odpowiedź, przechodząc sekwencyjnie przez kolejne fragmenty kodu i tekstu. Ale ów model działania, efektywny przy prostych zadaniach, zaczyna zawodzić, gdy w grę wchodzi dłuższy kontekst (gdy AI ma przeanalizować kilkusetstronicowy raport finansowy, dokumentację prawną czy potężny algorytm matematyczny). Wówczas zdolności bota do „logicznego rozumowania” gwałtownie spadają.
Sposób na przepełnioną pamięć
Tu przełomem są wyniki badań prowadzonych przez naukowców z prestiżowych amerykańskich uczelni – Carnegie Mellon University (CMU) oraz University of Maryland (UMD). Wyniki opublikowano w artykule naukowym „Do Language Models Need Sleep? Offline Recurrence for Improved Online Inference”, w którym zespół pod kierownictwem Sangyuna Lee i Toma Goldsteina udowadnia: bez fazy „odpoczynku” sztuczna inteligencja cierpi na cyfrowy odpowiednik bezsenności. A ten dewastuje jej zdolności intelektualne.
Czytaj więcej
Słuchając podcastu lub oglądając wideo można utracić kontrolę nad botem we własnym smartfonie. Badacze dowiedli: za pomocą niesłyszalnych dla człow...
Klucz do zrozumienia tego fenomenu leży w technologii zwanej KV cache (pamięć podręczna kluczy i wartości). Można ją w uproszczeniu porównać do ludzkiej pamięci operacyjnej lub roboczej. Gdy model AI analizuje olbrzymie ilości tekstu, jego pamięć podręczna drastycznie się przepełnia. Maszyna, zamiast skupiać się na istotnych zależnościach logicznych, zaczyna gubić wątki, mieszać fakty i generować halucynacje. Tradycyjne podejście inżynieryjne polegało na zwykłym zwiększaniu mocy obliczeniowej. To jednak drogie rozwiązanie. W tej sytuacji amerykańscy badacze postanowili skopiować mechanizm ewolucyjny, który od milionów lat sprawdza się u ludzi. Zaproponowali wprowadzenie fazy tzw. LLM Sleep (snu dużych modeli językowych), którą oparto na architekturze powtarzalności offline (offline recurrence). W skrócie: Gdy cyfrowa pamięć podręczna zaczyna się zatykać, sztuczna inteligencja na krótki czas zostaje odcięta od nowych bodźców zewnętrznych – nie przyjmuje kolejnych pytań od użytkowników i nie analizuje nowych danych. Zamiast tego przechodzi w tryb głębokiego przetwarzania wewnętrznego. W tym stanie swoistego cyfrowego snu model wielokrotnie odtwarza i analizuje informacje, które otrzymał wcześniej, co pozwala na ich strukturyzację.
Czytaj więcej
Naukowcy osiągnęli przełom, wykorzystując sztuczną inteligencję do projektowania syntetycznych białek. Te przewyższają swoje naturalne odpowiedniki...
Hipokamp w wersji cyfrowej
Biologiczna analogia zastosowana przez naukowców z CMU i UMD opiera się na zjawisku, które u ludzi występuje podczas snu głębokiego, gdy struktura zwana hipokampem przesyła nowo nabyte wspomnienia do kory mózgowej (przenosząc je z pamięci krótkotrwałej do trwałej).
Hipokamp to niewielka struktura mózgu w płacie skroniowym (po jednej w każdej półkuli), która odpowiada m.in. za pamięć, orientację przestrzenną oraz reakcje na stres. Boty nie mają takiej struktury, ale w architekturze systemów AI proces ten wygląda podobnie, bo podczas fazy offline algorytm aktualizuje swoje wewnętrzne struktury matematyczne. Informacje z przepełnionej pamięci podręcznej są integrowane bezpośrednio z siecią neuronową, co utrwala nabyte logiczne schematy.
Efekty tej symulacji snu okazały się zdumiewające. Naukowcy przetestowali swoje rozwiązanie na wymagającym benchmarku matematycznym GSM-Infinite. Algorytmy, którym pozwolono na cyfrowy odpoczynek, osiągały radykalnie wyższą precyzję odpowiedzi niż modele działające bez przerwy. Co kluczowe, im więcej cykli snu aplikowano maszynie, tym lepsze i bardziej spójne wnioski potrafiła wyciągnąć z gigantycznych zbiorów danych.