Model zastępuje rozproszone, wyspecjalizowane architektury zadaniowe, typowo stosowane w robotyce, jednym rozwiązaniem zdolnym obsługiwać wiele zadań i środowisk – informuje portal Interesting Engineering. Ma to ograniczyć zależność od oddzielnych modułów odpowiedzialnych za percepcję, planowanie i wykonanie.
Czytaj więcej
Biały Dom oskarżył Chiny o kradzież własności intelektualnej amerykańskich firm AI na skalę przemysłową. Zarzuty znalazły się w memorandum, które m...
Motubrain wykazał wysoką skuteczność w testach porównawczych. System bazuje na wcześniejszych pracach ShengShu nad generatywnym wideo w ramach platformy Vidu, wykorzystując dane wideo na dużą skalę do trenowania robotów w zakresie rozumienia i interakcji ze światem rzeczywistym.
Multimodalny model uczy się jak człowiek
Motubrain zaprojektowano jako zunifikowany model multimodalny, który uczy się jednocześnie z danych wideo, języka i działania. Pozwala to robotom analizować otoczenie, przewidywać skutki i działać w czasie rzeczywistym bez konieczności przełączania się między odrębnymi systemami.
Model wykorzystuje architekturę typu mixture-of-transformers z trzema strumieniami, aby integrować dane z różnych modalności. Takie podejście umożliwia robotom rozumienie poleceń, przewidywanie zmian w otoczeniu oraz generowanie odpowiednich działań w jednym, ciągłym cyklu.
Czytaj więcej
Sztuczna inteligencja w kilka lat przechodzi od roli „encyklopedii”, która odpowiada na pytania i potrafi pisać wypracowania czy maile, do „intelig...
W przeciwieństwie do konwencjonalnych systemów, które w dużym stopniu opierają się na oznaczonych zbiorach danych, Motubrain trenowany jest na szerszej mieszance nieoznaczonych nagrań wideo, danych symulacyjnych oraz zapisów zadań wykonywanych przez wiele robotów. Ramy tzw. latent action pozwalają wydobywać wzorce ruchu bezpośrednio z tych danych, ograniczając potrzebę ręcznego anotowania.
Roboty uczą się adaptacji w trakcie działania
Takie podejście pozwala na bardziej efektywne skalowanie modelu. W wewnętrznych testach Motubrain utrzymywał wyższy wskaźnik powodzenia niż konkurencyjne systemy wraz ze wzrostem złożoności zadań i liczby danych treningowych.
Motubrain potrafi realizować zadania wieloetapowe obejmujące do 10 elementarnych działań, co znacząco przewyższa typowe 2–3 kroki obsługiwane przez wiele obecnych systemów robotycznych. Dzięki temu roboty mogą wykonywać bardziej złożone czynności w czasie rzeczywistym w ramach jednej sekwencji.
Czytaj więcej
Stworzona w Pekinie AI, pracując bez ludzkiej ingerencji, w ledwie 80 godzin rozwiązała otwarty od dekady problem matematyczny. Badacze twierdzą: t...
W testach w warunkach rzeczywistych roboty trenowane z użyciem Motubrain wykazały zdolność adaptacji w trakcie wykonywania zadań. Gdy zadanie nie powiodło się – na przykład przy nieudanej próbie podniesienia obiektu – system potrafił rozpoznać błąd i ponowić próbę bez wcześniejszego treningu na takim scenariuszu.
Firma informuje, że model jest już wykorzystywany przez przedsiębiorstwa robotyczne w aktywnych programach szkoleniowych w środowiskach przemysłowych, komercyjnych i domowych. Współpraca z firmami takimi jak Astribot, SimpleAI i Anyverse Dynamics ma przyspieszyć jego wdrażanie.