Reklama

Robot nauczył się mówić i śpiewać jak człowiek. Wystarczyły mu filmy z YouTube’a

Naukowcy z Uniwersytetu Columbia stworzyli robota, który sam nauczył się ruszać ustami i mówić. Wystarczyło mu oglądanie filmów na YouTube i obserwowanie ludzkich zachowań.

Publikacja: 25.01.2026 17:30

Roboty przyszłości mają przypominać ludzi wyglądem i zachowaniem

Roboty przyszłości mają przypominać ludzi wyglądem i zachowaniem

Foto: Adobe Stock

Z tego artykułu się dowiesz:

  • Jak robot nauczył się mówić, obserwując ludzkie zachowania?
  • Dlaczego ruchy warg u robotów stanowią wyzwanie techniczne?
  • Co oznacza dla robotyki kombinacja ruchu warg z konwersacyjną sztuczną inteligencją?
  • Jakie są potencjalne etyczne problemy wynikające z rozwoju emocjonalnie interaktywnych robotów?

Naukowcy z Uniwersytetu Columbia w Nowym Jorku stworzyli robota, który uczy się ruchów warg, obserwując ludzi, zamiast kierować się z góry zaprogramowanymi regułami. W raporcie opublikowanym w „Science Robotics” zespół zaprezentował robota formującego słowa w wielu językach, a nawet śpiewającego utwór z wygenerowanego przez AI debiutanckiego albumu zatytułowanego „hello world_”.

Reklama
Reklama

Robot nauczył się mówić dzięki obserwacji ludzi

Robot, który nazywa się EMO, zdobył tę umiejętność dzięki obserwacji, a nie instrukcjom. Najpierw nauczył się kontrolować własną twarz, obserwując swoje odbicie w lustrze i stopniowo rozumiejąc, jak jego 26 silników twarzy kształtuje różne wyrazy twarzy. Następnie analizował godziny filmów z YouTube’a, by obserwować, jak ludzkie usta poruszają się podczas mowy i śpiewu – informuje portal SciTechDaily.

– Im więcej będzie wchodził w interakcje z ludźmi, tym lepszy się stanie – powiedział Hod Lipson, profesor na Wydziale Inżynierii Mechanicznej oraz dyrektor Creative Machines Lab na Uniwersytecie Columbia.

Reklama
Reklama

Dlaczego robotom tak trudno naśladować ruchy ludzkich ust

Tworzenie wiarygodnych ruchów warg u robotów jest niezwykle trudne, ponieważ wymaga precyzyjnej koordynacji między dźwiękiem a ruchem – ruch warg zależy bowiem od szybko zmieniających się dźwięków mowy i fonemów, a także od tego, że większość materiałów stosowanych w robotyce jest zbyt mało elastyczna.

Ludzkie twarze opierają się na dziesiątkach mięśni ukrytych pod miękką skórą, które naturalnie poruszają się w rytmie mowy. Większość robotów humanoidalnych ma natomiast sztywne twarze o ograniczonym zakresie ruchu. Ich ruchy ust są zwykle sterowane stałymi regułami, co daje efekt mechaniczny i nienaturalny.

Czytaj więcej

Blisko przełomu w robotyce. Humanoidy rozpoczynają ekspansję

Aby to zmienić, zespół badawczy zaprojektował elastyczną robotyczną twarz z rozbudowanym systemem sterowania silnikami i pozwolił robotowi uczyć się ruchów mimicznych metodą prób i błędów. Robot został ustawiony przed lustrem i generował tysiące losowych wyrazów twarzy oraz ruchów ust. Z czasem nauczył się, które działania silników tworzą określony wygląd twarzy. Proces ten opierał się na systemie znanym jako model „vision-to-action” (VLA).

Sztuczna inteligencja tłumaczy dźwięk bezpośrednio na ruch warg

Gdy robot zrozumiał, jak działa jego własna twarz, badacze pokazali mu nagrania ludzi mówiących i śpiewających. System AI obserwował, jak usta zmieniają kształt w odpowiedzi na różne dźwięki. Łącząc tę wiedzę z umiejętnością sterowania własną twarzą, robot potrafił bezpośrednio przekładać dźwięk na ruch warg.

Zespół przetestował system w różnych językach, przy różnych dźwiękach i w różnych warunkach, także z muzyką. Nawet nie rozumiejąc znaczenia słyszanych słów, robot był w stanie poruszać ustami w rytmie dźwięku.

Reklama
Reklama

Jednak zsynchronizowany ruch warg to tylko jeden element celu, do którego dążą naukowcy. Ich praca koncentruje się na tym, by roboty komunikowały się w sposób naturalny i emocjonalnie znaczący. Gdy synchronizacja ruchu ust zostanie połączona z konwersacyjną sztuczną inteligencją, taką jak ChatGPT czy Gemini, efekt nada zupełnie nową głębię relacji, jaką robot tworzy z człowiekiem – uważają badacze z Columbii.

Roboty z emocjami? Naukowcy widzą też zagrożenia

Naukowcy są zdania, że w przyszłości wszystkie roboty będą miały realistyczne, niemal ludzkie twarze. Będzie to miało szczególne znaczenie w przypadku maszyn wykorzystywanych w rozrywce, edukacji, opiece zdrowotnej i opiece nad osobami starszymi. Niektórzy ekonomiści szacują, że w ciągu najbliższej dekady może zostać wyprodukowanych ponad miliard robotów humanoidalnych.

Zespół dostrzega również etyczne obawy związane z tworzeniem maszyn, które potrafią emocjonalnie oddziaływać na ludzi. – To będzie potężna technologia. Musimy działać powoli i ostrożnie, aby czerpać korzyści, jednocześnie minimalizując ryzyko – przyznaje profesor Hod Lipson.

Technologie
Apple rzuca wyzwanie OpenAI. Szykuje urządzenie AI do noszenia na ubraniu
Technologie
Te koncerny chcą zarabiać na edukacji. Nauczyciele ostrzegają
Technologie
Narządy na zamówienie. Naukowcy stworzyli wątrobą 3D, powstaną kolejne organy
Technologie
Zagadka czerwonej kropki na zdjęciu z drona. AI widzi to, co umyka ludzkiemu oku
Technologie
Google wprowadza osobistą AI. Wie, czym jeździsz, gdzie lecisz, co masz na myśli
Reklama
Reklama
REKLAMA: automatycznie wyświetlimy artykuł za 15 sekund.
Reklama
Reklama