Polacy dadzą botom dowolny głos. Ta technologia może być groźna

Po sukcesie ChatGPT przyszła pora na kolejny model tzw. generatywnej sztucznej inteligencji – audio AI. Za algorytmami, które potrafią podkładać dubbing w filmach, czy naśladować mowę każdej osoby, w dowolnym języku, stoi polski start-up.

Publikacja: 31.01.2023 01:57

Byli inżynierowie firm Google i Palantir założyli start-up ElevenLabs. Polska spółka chce namieszać

Byli inżynierowie firm Google i Palantir założyli start-up ElevenLabs. Polska spółka chce namieszać na wartym ok. 3 mld dol. rynku konwersji tekstu na głos z wykorzystaniem sztucznej inteligencji.

Foto: shutterstock

Hitowy system ChatGPT od Open AI to model typu text-to-text, co oznacza, że pozwala prowadzić konwersację ze sztuczną inteligencją za pomocą chatu. Model typu TTS (text-to-speech), który rozwija spółka EleveLabs, idzie o krok dalej i daje algorytmom ludzki głos. Takie zaawansowane systemy audio AI odmienią branżę filmową czy reklamową. Choć zastosowań jest znacznie więcej. Już teraz, dzięki polskiemu start-upowi, można sprawić, że bot podczas np. naszej prezentacji slajdów firmowych opowie o wyświetlanej treści głosem Krystyny Czubówny. Narzędzie otwiera też drzwi do tworzenia tzw. deepfake’ów, a więc zaawansowanych materiałów, które mogą szerzyć dezinformację. Bez problemu można bowiem sprawić, by bot wypowiedział głosem Joe Bidena dowolną kwestię.

Konwersja mowy przyciąga inwestorów

Możliwości zaawansowanych systemów TTS robią wrażenie. W podstawowej ofercie ElevenLabs ma grupę dostępnych męskich i żeńskich głosów. Lektor może mówić w dziesiątkach języków, z dowolną intonacją i szybkością, oddając nawet emocje. Co istotne, jest też opcja klonowania. A to właśnie furtka, by nauczyć bota naśladowania mowy dowolnej osoby. Wystarczy kilkudziesięciosekundowa próbka czyjegoś głosu. Na razie klonowanie możliwe jest tylko w języku angielskim, ale start-up zapowiada, że prawdopodobnie w II kwartale pojawi się opcja z jęz. polskim.

ElevenLabs właśnie otworzył swoją platformę do szerokich testów, tak jak w listopadzie uczynił to Open AI ze swoim ChatGPT-3. Rodzima spółka pozyskała też finansowanie na rozwój projektu – trafiło do niej 2 mln dol. W ElevenLabs zainwestowały fundusze: czeski Credo Ventures, brytyjski Concept Ventures, a także aniołowie biznesu. Wśród nich są m.in. Talfan Evans, badacz z przejętej przez Google’a firmy DeepMind, specjalizującej się w sztucznej inteligencji, Peter Czaban, inwestor na rynku blockchain i kryptowalut, czy Tytus Cytowski, amerykański prawnik polskiego pochodzenia, działający m.in. w branży technologicznej.

Czytaj więcej

Teraz już każdy porozmawia z Joe Bidenem. Ten bot ma zaskakującą umiejętność

Ambicje twórców firmy są takie, by stworzyć narzędzie, które odmieni rynek produkcji kinowych (dubbing), streamingu, gier czy audiobooków. W przyszłości wszystkimi kwestiami audio zajmą się bowiem nie aktorzy czy lektorzy, lecz inteligentne boty. Ponadto start-up chce opracować narzędzia do syntezy mowy, które będą w trybie natychmiastowym dokonywać konwersji mowy na dowolny język. Na razie firma pracuje nad „stacją roboczą” do montażu lektora.

Udział ElevenLabs w rozwoju tzw. generatywnej sztucznej inteligencji ma szansę stać się istotny. Maciej Gnutek z Credo Ventures mówi wprost o start-upie, że ten staje się centrum badawczym technologii mowy klasy Open AI.

Od Google’a i Palantira do własnego projektu

ElevenLabs to spółka, którą stworzyli Mati Staniszewski oraz Piotr Dąbkowski. Projekt jest wyjątkowo młody, bo powstał w ub.r. Rozwija się jednak w imponującym tempie.

Staniszewski to inżynier, który wcześniej związany był z firmą Palantir założoną przez amerykańskiego miliardera Petera Thiela. Z kolei Dąbkowski pracował przy technologiach uczenia maszynowego w Google’u. – Mati Staniszewski oraz Piotr Dąbkowski pokonują największe wyzwania związane ze sztucznym dźwiękiem. Ich zsyntetyzowane głosy są już nie do odróżnienia od prawdziwych. Ten przełom znacznie obniżył bariery w generowaniu treści o niespotykanej jakości – podkreśla Maciej Gnutek.

Czytaj więcej

Chińska odpowiedź na ChatGPT. Algorytmy okazały się… rasistowskie

ElevenLabs w branży TTS ma sporą konkurencję, choć – jak zapewniają w start-upie – nikt tak jak oni nie jest w stanie przetwarzać na audio długich treści tekstowych.

Spółka na rynku wartym ok. 3 mld dol. (wedle szacunków Grand View Research) rywalizuje m.in. z projektem Respeecher. To ukraiński start-up, za którym stoją Dmytro Bielievtsov i Alex Serdiuk – światowa czołówka w zakresie dźwięku i sztucznej inteligencji. Respeecher ma być odpowiedzialny za nieśmiertelność głosu Jamesa E. Jonesa (aktor przez lata użyczał głosu postaci lorda Dartha Vadera w filmach „Gwiezdne wojny”, ale zdecydował się przejść na emeryturę – wcześniej podpisał kontrakt, dzięki któremu jego głos może być dalej wykorzystywany w celu tworzenia innych produkcji z uniwersum). Technologia ukraińskiej spółki była wykorzystana już w kilku odcinkach „Mandaloriana” czy „Obi-Wan Kenobi”, serialach Disney Plus.

Nad projektami audio AI pracują ponadto takie firmy jak kanadyjski Resemble AI, amerykański WellSaid Labs, Microsoft oraz Google i Apple.

Hitowy system ChatGPT od Open AI to model typu text-to-text, co oznacza, że pozwala prowadzić konwersację ze sztuczną inteligencją za pomocą chatu. Model typu TTS (text-to-speech), który rozwija spółka EleveLabs, idzie o krok dalej i daje algorytmom ludzki głos. Takie zaawansowane systemy audio AI odmienią branżę filmową czy reklamową. Choć zastosowań jest znacznie więcej. Już teraz, dzięki polskiemu start-upowi, można sprawić, że bot podczas np. naszej prezentacji slajdów firmowych opowie o wyświetlanej treści głosem Krystyny Czubówny. Narzędzie otwiera też drzwi do tworzenia tzw. deepfake’ów, a więc zaawansowanych materiałów, które mogą szerzyć dezinformację. Bez problemu można bowiem sprawić, by bot wypowiedział głosem Joe Bidena dowolną kwestię.

Pozostało 85% artykułu
2 / 3
artykułów
Czytaj dalej. Subskrybuj
Biznes Ludzie Startupy
Historia zdrowia każdego w jednym pliku. Firma z Warszawy chce zlikwidować kolejki
Materiał Promocyjny
Wykup samochodu z leasingu – co warto wiedzieć?
Biznes Ludzie Startupy
Sztuczna inteligencja z Polski chce odmienić działanie firm w USA
Biznes Ludzie Startupy
Polska elektrownia wodna nie musi mieć tamy
Biznes Ludzie Startupy
Klikasz i kupujesz to, co widzisz w TV. Pomoże polska sztuczna inteligencja
Biznes Ludzie Startupy
Polacy radykalnie wydłużyli świeżość żywności. Technologia z Torunia trafi do USA