Robot nauczył się mówić i śpiewać jak człowiek. Wystarczyły mu filmy z YouTube’a

Naukowcy z Uniwersytetu Columbia stworzyli robota, który sam nauczył się ruszać ustami i mówić. Wystarczyło mu oglądanie filmów na YouTube i obserwowanie ludzkich zachowań.

Publikacja: 25.01.2026 17:30

Roboty przyszłości mają przypominać ludzi wyglądem i zachowaniem

Foto: Adobe Stock

Urszula Lesman

Z tego artykułu się dowiesz:

  • Jak robot nauczył się mówić, obserwując ludzkie zachowania?
  • Dlaczego ruchy warg u robotów stanowią wyzwanie techniczne?
  • Co oznacza dla robotyki kombinacja ruchu warg z konwersacyjną sztuczną inteligencją?
  • Jakie są potencjalne etyczne problemy wynikające z rozwoju emocjonalnie interaktywnych robotów?

Naukowcy z Uniwersytetu Columbia w Nowym Jorku stworzyli robota, który uczy się ruchów warg, obserwując ludzi, zamiast kierować się z góry zaprogramowanymi regułami. W raporcie opublikowanym w „Science Robotics” zespół zaprezentował robota formującego słowa w wielu językach, a nawet śpiewającego utwór z wygenerowanego przez AI debiutanckiego albumu zatytułowanego „hello world_”.

Robot nauczył się mówić dzięki obserwacji ludzi

Robot, który nazywa się EMO, zdobył tę umiejętność dzięki obserwacji, a nie instrukcjom. Najpierw nauczył się kontrolować własną twarz, obserwując swoje odbicie w lustrze i stopniowo rozumiejąc, jak jego 26 silników twarzy kształtuje różne wyrazy twarzy. Następnie analizował godziny filmów z YouTube’a, by obserwować, jak ludzkie usta poruszają się podczas mowy i śpiewu – informuje portal SciTechDaily.

– Im więcej będzie wchodził w interakcje z ludźmi, tym lepszy się stanie – powiedział Hod Lipson, profesor na Wydziale Inżynierii Mechanicznej oraz dyrektor Creative Machines Lab na Uniwersytecie Columbia.

Dlaczego robotom tak trudno naśladować ruchy ludzkich ust

Tworzenie wiarygodnych ruchów warg u robotów jest niezwykle trudne, ponieważ wymaga precyzyjnej koordynacji między dźwiękiem a ruchem – ruch warg zależy bowiem od szybko zmieniających się dźwięków mowy i fonemów, a także od tego, że większość materiałów stosowanych w robotyce jest zbyt mało elastyczna.

Ludzkie twarze opierają się na dziesiątkach mięśni ukrytych pod miękką skórą, które naturalnie poruszają się w rytmie mowy. Większość robotów humanoidalnych ma natomiast sztywne twarze o ograniczonym zakresie ruchu. Ich ruchy ust są zwykle sterowane stałymi regułami, co daje efekt mechaniczny i nienaturalny.

Czytaj więcej

Robot LG CLOiD wkłada ręcznik do pralki. Humanoidy domowe to nowy kierunek rozwoju robotyki
Globalne Interesy
Blisko przełomu w robotyce. Humanoidy rozpoczynają ekspansję

Aby to zmienić, zespół badawczy zaprojektował elastyczną robotyczną twarz z rozbudowanym systemem sterowania silnikami i pozwolił robotowi uczyć się ruchów mimicznych metodą prób i błędów. Robot został ustawiony przed lustrem i generował tysiące losowych wyrazów twarzy oraz ruchów ust. Z czasem nauczył się, które działania silników tworzą określony wygląd twarzy. Proces ten opierał się na systemie znanym jako model „vision-to-action” (VLA).

Sztuczna inteligencja tłumaczy dźwięk bezpośrednio na ruch warg

Gdy robot zrozumiał, jak działa jego własna twarz, badacze pokazali mu nagrania ludzi mówiących i śpiewających. System AI obserwował, jak usta zmieniają kształt w odpowiedzi na różne dźwięki. Łącząc tę wiedzę z umiejętnością sterowania własną twarzą, robot potrafił bezpośrednio przekładać dźwięk na ruch warg.

Zespół przetestował system w różnych językach, przy różnych dźwiękach i w różnych warunkach, także z muzyką. Nawet nie rozumiejąc znaczenia słyszanych słów, robot był w stanie poruszać ustami w rytmie dźwięku.

Jednak zsynchronizowany ruch warg to tylko jeden element celu, do którego dążą naukowcy. Ich praca koncentruje się na tym, by roboty komunikowały się w sposób naturalny i emocjonalnie znaczący. Gdy synchronizacja ruchu ust zostanie połączona z konwersacyjną sztuczną inteligencją, taką jak ChatGPT czy Gemini, efekt nada zupełnie nową głębię relacji, jaką robot tworzy z człowiekiem – uważają badacze z Columbii.

Roboty z emocjami? Naukowcy widzą też zagrożenia

Naukowcy są zdania, że w przyszłości wszystkie roboty będą miały realistyczne, niemal ludzkie twarze. Będzie to miało szczególne znaczenie w przypadku maszyn wykorzystywanych w rozrywce, edukacji, opiece zdrowotnej i opiece nad osobami starszymi. Niektórzy ekonomiści szacują, że w ciągu najbliższej dekady może zostać wyprodukowanych ponad miliard robotów humanoidalnych.

Zespół dostrzega również etyczne obawy związane z tworzeniem maszyn, które potrafią emocjonalnie oddziaływać na ludzi. – To będzie potężna technologia. Musimy działać powoli i ostrożnie, aby czerpać korzyści, jednocześnie minimalizując ryzyko – przyznaje profesor Hod Lipson.

