Hitowy system ChatGPT od Open AI to model typu text-to-text, co oznacza, że pozwala prowadzić konwersację ze sztuczną inteligencją za pomocą chatu. Model typu TTS (text-to-speech), który rozwija spółka EleveLabs, idzie o krok dalej i daje algorytmom ludzki głos. Takie zaawansowane systemy audio AI odmienią branżę filmową czy reklamową. Choć zastosowań jest znacznie więcej. Już teraz, dzięki polskiemu start-upowi, można sprawić, że bot podczas np. naszej prezentacji slajdów firmowych opowie o wyświetlanej treści głosem Krystyny Czubówny. Narzędzie otwiera też drzwi do tworzenia tzw. deepfake’ów, a więc zaawansowanych materiałów, które mogą szerzyć dezinformację. Bez problemu można bowiem sprawić, by bot wypowiedział głosem Joe Bidena dowolną kwestię.
Konwersja mowy przyciąga inwestorów
Możliwości zaawansowanych systemów TTS robią wrażenie. W podstawowej ofercie ElevenLabs ma grupę dostępnych męskich i żeńskich głosów. Lektor może mówić w dziesiątkach języków, z dowolną intonacją i szybkością, oddając nawet emocje. Co istotne, jest też opcja klonowania. A to właśnie furtka, by nauczyć bota naśladowania mowy dowolnej osoby. Wystarczy kilkudziesięciosekundowa próbka czyjegoś głosu. Na razie klonowanie możliwe jest tylko w języku angielskim, ale start-up zapowiada, że prawdopodobnie w II kwartale pojawi się opcja z jęz. polskim.
ElevenLabs właśnie otworzył swoją platformę do szerokich testów, tak jak w listopadzie uczynił to Open AI ze swoim ChatGPT-3. Rodzima spółka pozyskała też finansowanie na rozwój projektu – trafiło do niej 2 mln dol. W ElevenLabs zainwestowały fundusze: czeski Credo Ventures, brytyjski Concept Ventures, a także aniołowie biznesu. Wśród nich są m.in. Talfan Evans, badacz z przejętej przez Google’a firmy DeepMind, specjalizującej się w sztucznej inteligencji, Peter Czaban, inwestor na rynku blockchain i kryptowalut, czy Tytus Cytowski, amerykański prawnik polskiego pochodzenia, działający m.in. w branży technologicznej.
Czytaj więcej
Byli inżynierowie Google, którzy wcześniej pracowali nad algorytmami LaMDA, stworzyli chatbota, który bez wątpienia wyróżnia się na tle konkurencyjnych projektów konwersacyjnej sztucznej inteligencji. Podszyje się pod każdą postać.
Ambicje twórców firmy są takie, by stworzyć narzędzie, które odmieni rynek produkcji kinowych (dubbing), streamingu, gier czy audiobooków. W przyszłości wszystkimi kwestiami audio zajmą się bowiem nie aktorzy czy lektorzy, lecz inteligentne boty. Ponadto start-up chce opracować narzędzia do syntezy mowy, które będą w trybie natychmiastowym dokonywać konwersji mowy na dowolny język. Na razie firma pracuje nad „stacją roboczą” do montażu lektora.