Z tego artykułu dowiesz się:
- Jakie nowe rozwiązanie technologiczne pojawia się na rynku syntezy mowy?
- Jakie innowacje cechują narzędzie firmy Mistral AI?
- Czy wiodąca pozycja ElevenLabs w branży będzie zagrożona?
ElevenLabs, które zaledwie na początku br. przekroczyło wycenę 11 mld dol., musi ostro walczyć o utrzymanie wiodącej pozycji na tym rynku. W branży pojawił się właśnie nowy gracz, jedna z największych spółek AI na Starym Kontynencie. Mowa o Mistral AI, francuskim start-upie, który dotąd skupiał się na rozwoju własnego chatbota. Francuski duży model językowy był odpowiedzią na ChatGPT i zapewnił Mistralowi pozycję jednego z liderów rynku LLM. Teraz Francuzi wypuszczają swój pierwszy model zamieniający tekst na mowę (text-to-speech).
Voxtral będzie przełomem?
Voxtral TTS, bo tak nazywa się narzędzie, zaprojektowane z myślą o nowej generacji asystentów głosowych i zastosowaniach biznesowych (takich jak sprzedaż czy obsługa klienta), ma być rynkowym przełomem. Jak twierdzą twórcy, system oferuje „najwyższe parametry wydajnościowe za ułamek ceny” dyktowanej dotąd w branży. Czy to będzie bolesny cios dla ElevenLabs? Start-up, na którego czele stoją Polacy: Piotr Dąbkowski i Mati Staniszewski, to bez wątpienia jeden z wiodących graczy w dziedzinie generowania głosu. Na razie trudno uznać, aby Voxtral TTS wywrócił układ na rynkowej scenie, choć faktem jest, że już na starcie oferuje obsługę dziewięciu języków, w tym m.in. angielskiego, francuskiego, niemieckiego, hiszpańskiego oraz arabskiego.
System został zbudowany na bazie architektury Mistral 3B i pozwala na zaadaptowanie niestandardowego głosu (tzw. voice cloning) na podstawie próbki trwającej niespełna pięć sekund. Co więcej, płynnie przełącza się między językami bez utraty charakterystyki barwy głosu, co jest funkcją kluczową przy wielojęzycznym dubbingu. Jak pisze serwis TechCrunch, francuscy inżynierowie zadbali, by AI z niezwykłą dokładnością wyłapywało subtelne akcenty, intonacje i nieregularności w przepływie mowy – wszystko po to, by syntezator brzmiał do złudzenia ludzko, unikając „robotycznego” efektu.
Asystent głosowy nawet na smartwatchu
Francuski model zoptymalizowano do działania w czasie rzeczywistym. Czas reakcji (TTFA – time-to-first-audio) od momentu wprowadzenia tekstu do rozpoczęcia generowania dźwięku wynosi zaledwie 90 milisekund przy 10-sekundowej próbce liczącej 500 znaków. To świetny wynik. Co więcej, Mistral przyjął zdecydowanie inną strategię technologiczną i biznesową niż jego najwięksi rywale, gdyż stawia na wariant „open source” i ekstremalną optymalizację sprzętową.
Czytaj więcej
Sektor sztucznej inteligencji ma nowego, globalnego giganta z polskimi korzeniami. ElevenLabs, firma założona przez Piotra Dąbkowskiego i Matiego S...
– Nasi klienci domagali się modelu mowy, więc zbudowaliśmy kompaktowe rozwiązanie, które zmieści się na smartwatchu, smartfonie czy firmowym laptopie – tłumaczy Pierre Stock, wiceprezes ds. operacji naukowych w Mistral AI.
To właśnie te zapowiedzi mogą wzbudzać czujność w zarządzie ElevenLabs. Z drugiej strony, spółka to dziś hegemon. W lutym br. polski jednorożec zamknął potężną rundę finansowania serii D (500 mln dol.), prowadzoną m.in. przez fundusz Sequoia Capital, dzięki czemu wycena firmy poszybowała do poziomu 11 mld dol. ElevenLabs tylko miniony rok zakończyło z cyklicznymi przychodami (ARR) przekraczającymi 330 mln dol., obsługując korporacyjnych gigantów pokroju Deutsche Telekom czy Revolut. Założyciele coraz śmielej zerkają również w stronę giełdy.
Na rynku wycenianym na 5 mld dol., ale rosnącym średniorocznie w tempie ok. 30 proc., jest wiele innych generatorów mowy AI: od Deepgram, Murf AI oraz Speechify, przez Respeecher i PlayHT, po projekty OpenAI i Amazona.