Polacy dadzą botom dowolny głos. Ta technologia może być groźna

Po sukcesie ChatGPT przyszła pora na kolejny model tzw. generatywnej sztucznej inteligencji – audio AI. Za algorytmami, które potrafią podkładać dubbing w filmach, czy naśladować mowę każdej osoby, w dowolnym języku, stoi polski start-up.

Publikacja: 31.01.2023 01:57

Byli inżynierowie firm Google i Palantir założyli start-up ElevenLabs. Polska spółka chce namieszać

Byli inżynierowie firm Google i Palantir założyli start-up ElevenLabs. Polska spółka chce namieszać na wartym ok. 3 mld dol. rynku konwersji tekstu na głos z wykorzystaniem sztucznej inteligencji.

Foto: shutterstock

Hitowy system ChatGPT od Open AI to model typu text-to-text, co oznacza, że pozwala prowadzić konwersację ze sztuczną inteligencją za pomocą chatu. Model typu TTS (text-to-speech), który rozwija spółka EleveLabs, idzie o krok dalej i daje algorytmom ludzki głos. Takie zaawansowane systemy audio AI odmienią branżę filmową czy reklamową. Choć zastosowań jest znacznie więcej. Już teraz, dzięki polskiemu start-upowi, można sprawić, że bot podczas np. naszej prezentacji slajdów firmowych opowie o wyświetlanej treści głosem Krystyny Czubówny. Narzędzie otwiera też drzwi do tworzenia tzw. deepfake’ów, a więc zaawansowanych materiałów, które mogą szerzyć dezinformację. Bez problemu można bowiem sprawić, by bot wypowiedział głosem Joe Bidena dowolną kwestię.

Konwersja mowy przyciąga inwestorów

Możliwości zaawansowanych systemów TTS robią wrażenie. W podstawowej ofercie ElevenLabs ma grupę dostępnych męskich i żeńskich głosów. Lektor może mówić w dziesiątkach języków, z dowolną intonacją i szybkością, oddając nawet emocje. Co istotne, jest też opcja klonowania. A to właśnie furtka, by nauczyć bota naśladowania mowy dowolnej osoby. Wystarczy kilkudziesięciosekundowa próbka czyjegoś głosu. Na razie klonowanie możliwe jest tylko w języku angielskim, ale start-up zapowiada, że prawdopodobnie w II kwartale pojawi się opcja z jęz. polskim.

ElevenLabs właśnie otworzył swoją platformę do szerokich testów, tak jak w listopadzie uczynił to Open AI ze swoim ChatGPT-3. Rodzima spółka pozyskała też finansowanie na rozwój projektu – trafiło do niej 2 mln dol. W ElevenLabs zainwestowały fundusze: czeski Credo Ventures, brytyjski Concept Ventures, a także aniołowie biznesu. Wśród nich są m.in. Talfan Evans, badacz z przejętej przez Google’a firmy DeepMind, specjalizującej się w sztucznej inteligencji, Peter Czaban, inwestor na rynku blockchain i kryptowalut, czy Tytus Cytowski, amerykański prawnik polskiego pochodzenia, działający m.in. w branży technologicznej.

Czytaj więcej

Teraz już każdy porozmawia z Joe Bidenem. Ten bot ma zaskakującą umiejętność

Ambicje twórców firmy są takie, by stworzyć narzędzie, które odmieni rynek produkcji kinowych (dubbing), streamingu, gier czy audiobooków. W przyszłości wszystkimi kwestiami audio zajmą się bowiem nie aktorzy czy lektorzy, lecz inteligentne boty. Ponadto start-up chce opracować narzędzia do syntezy mowy, które będą w trybie natychmiastowym dokonywać konwersji mowy na dowolny język. Na razie firma pracuje nad „stacją roboczą” do montażu lektora.

Udział ElevenLabs w rozwoju tzw. generatywnej sztucznej inteligencji ma szansę stać się istotny. Maciej Gnutek z Credo Ventures mówi wprost o start-upie, że ten staje się centrum badawczym technologii mowy klasy Open AI.

Od Google’a i Palantira do własnego projektu

ElevenLabs to spółka, którą stworzyli Mati Staniszewski oraz Piotr Dąbkowski. Projekt jest wyjątkowo młody, bo powstał w ub.r. Rozwija się jednak w imponującym tempie.

Staniszewski to inżynier, który wcześniej związany był z firmą Palantir założoną przez amerykańskiego miliardera Petera Thiela. Z kolei Dąbkowski pracował przy technologiach uczenia maszynowego w Google’u. – Mati Staniszewski oraz Piotr Dąbkowski pokonują największe wyzwania związane ze sztucznym dźwiękiem. Ich zsyntetyzowane głosy są już nie do odróżnienia od prawdziwych. Ten przełom znacznie obniżył bariery w generowaniu treści o niespotykanej jakości – podkreśla Maciej Gnutek.

Czytaj więcej

Chińska odpowiedź na ChatGPT. Algorytmy okazały się… rasistowskie

ElevenLabs w branży TTS ma sporą konkurencję, choć – jak zapewniają w start-upie – nikt tak jak oni nie jest w stanie przetwarzać na audio długich treści tekstowych.

Spółka na rynku wartym ok. 3 mld dol. (wedle szacunków Grand View Research) rywalizuje m.in. z projektem Respeecher. To ukraiński start-up, za którym stoją Dmytro Bielievtsov i Alex Serdiuk – światowa czołówka w zakresie dźwięku i sztucznej inteligencji. Respeecher ma być odpowiedzialny za nieśmiertelność głosu Jamesa E. Jonesa (aktor przez lata użyczał głosu postaci lorda Dartha Vadera w filmach „Gwiezdne wojny”, ale zdecydował się przejść na emeryturę – wcześniej podpisał kontrakt, dzięki któremu jego głos może być dalej wykorzystywany w celu tworzenia innych produkcji z uniwersum). Technologia ukraińskiej spółki była wykorzystana już w kilku odcinkach „Mandaloriana” czy „Obi-Wan Kenobi”, serialach Disney Plus.

Nad projektami audio AI pracują ponadto takie firmy jak kanadyjski Resemble AI, amerykański WellSaid Labs, Microsoft oraz Google i Apple.

Hitowy system ChatGPT od Open AI to model typu text-to-text, co oznacza, że pozwala prowadzić konwersację ze sztuczną inteligencją za pomocą chatu. Model typu TTS (text-to-speech), który rozwija spółka EleveLabs, idzie o krok dalej i daje algorytmom ludzki głos. Takie zaawansowane systemy audio AI odmienią branżę filmową czy reklamową. Choć zastosowań jest znacznie więcej. Już teraz, dzięki polskiemu start-upowi, można sprawić, że bot podczas np. naszej prezentacji slajdów firmowych opowie o wyświetlanej treści głosem Krystyny Czubówny. Narzędzie otwiera też drzwi do tworzenia tzw. deepfake’ów, a więc zaawansowanych materiałów, które mogą szerzyć dezinformację. Bez problemu można bowiem sprawić, by bot wypowiedział głosem Joe Bidena dowolną kwestię.

Pozostało 85% artykułu
2 / 3
artykułów
Czytaj dalej. Subskrybuj
Biznes Ludzie Startupy
Polska firma, numer 1 w USA, zapłaci za gole na Euro 2024. Ale nie piłkarzom
Materiał partnera
Usługi MAIN pomagają spełniać wymogi NIS2
Biznes Ludzie Startupy
Dron na miesiąc, laptop na tydzień. Polska wypożyczalnia rusza na podbój zagranicy
Materiał partnera
Różnorodność daje organizacjom supermoc
Akcje Specjalne
Firmy chcą działać w sposób zrównoważony
Biznes Ludzie Startupy
Polak stworzył AI, która sama założy firmę czy zarezerwuje bilet. Światowi inwestorzy
Materiał Promocyjny
Sztuczna inteligencja może być wykorzystywana w każdej branży