Reklama

Google rzuca wyzwanie polskiemu ElevenLabs. Nowy model AI potrafi szeptać i płakać

Amerykański gigant atakuje rynek realistycznej syntezy mowy. Nowy model Gemini 3.1 Flash TTS nie tylko mówi po polsku, ale potrafi też oddawać emocje, co może zachwiać pozycją liderów takich jak ElevenLabs.

Aktualizacja: 16.04.2026 20:03 Publikacja: 16.04.2026 14:26

Polski ElevenLabs zyskuje groźnego rywala w postaci narzędzia Google

Foto: Bloomberg

Michał Duszczyk

Z tego artykułu dowiesz się:

Jak zmienia się dynamika na rynku TTS?
Jakie nowe możliwości w zakresie ekspresji emocjonalnej i subtelności oferują najnowsze modele syntezy mowy?
Jak najnowsze systemy AI od Google plasują się w branżowych rankingach jakości syntezy mowy?

Czy rodzimy ElevenLabs ma powody do obaw? Gigant z Mountain View wchodzi w obszar, gdzie króluj start-up wyceniany na 11 mld dol. Nowy model Gemini 3.1 Flash TTS to nie tylko techniczny popis możliwości Google, ale przede wszystkim bezpośrednie uderzenie w pozycję lidera segmentu syntezy mowy. Dzięki ponad 200 znacznikom emocjonalnym i natywnej obsłudze dialogów, Google chce przejąć twórców podcastów, programistów i branżę kreatywną.

Czytaj więcej

Revoize ma ambicję stać się wiodącą firmą w zakresie transformacji audio w czasie rzeczywistym. W sp

Biznes Ludzie Startupy

Najwięcej wart polski start-up zyskuje następcę. Plany światowej ekspansji

Rodzimy start-up Revoize idzie śladem polskiego jednorożca ElevenLabs. Stworzył technologię, która w czasie rzeczywistym, eliminując szumy i zakłóc...

Emocje w kodzie. Koniec z mechanicznym głosem

Do niedawna granica między mową generowaną przez AI a ludzkim głosem była wyraźnie zarysowana przez brak subtelności. Modele potrafiły czytać tekst poprawnie, ale rzadko potrafiły oddać intencję ukrytą między wierszami. Google Gemini 3.1 Flash TTS ma to zmienić, wprowadzając to, co firma nazywa „autorskim” podejściem do dźwięku. Kluczem do sukcesu ma być ogromna biblioteka ponad 200 znaczników audio (audio tags). Programiści korzystający z Gemini API mogą teraz wprost w tekście wejściowym zaszywać instrukcje dotyczące stylu wypowiedzi. AI nie tylko „przeczyta” zdanie, ale na żądanie zrobi to z determinacją, nutą ciekawości, a nawet przejdzie w szept, wybuchnie śmiechem lub płaczem. To poziom, który do tej pory był znakiem rozpoznawczym ElevenLabs.

Google idzie jak taran – model na starcie obsługuje ponad 70 języków, w tym tak wymagające rynki jak hindi, japoński czy niemiecki, oferując 30 gotowych głosów jako bazę do dalszej personalizacji. Nowy Gemini przemówi też po polsku.

Warto zaznaczyć jednak, że Google i ElevenLabs nie są śmiertelnymi wrogami. Firmy dotąd ze sobą współpracowały w kilku obszarach, a wielu pracowników polskiego start-upu wywodzi się właśnie z koncernu kierowanego przez Sundara Pichaia.

To m.in. dzięki globalnej infrastrukturze AI od Google Cloud produkty ElevenLabs mogą obsługiwać agentów głosowych. ElevenLabs wykorzystuje maszyny wirtualne Google Cloud G4, wyposażone w procesory graficzne NVIDIA RTX PRO 6000 Blackwell, do trenowania i obsługi swoich modeli głosowych.

Google rzuca wyzwanie liderom rynku audio

Nowością dla twórców treści jest natywna obsługa dialogów wieloosobowych. Tradycyjne systemy TTS zazwyczaj wymagają oddzielnych wywołań API dla każdego głosu, co komplikuje proces tworzenia np. słuchowisk czy podcastów. Gemini 3.1 Flash TTS potrafi zachować naturalny przepływ rozmowy między wieloma postaciami w ramach jednego procesu, co obniża bariery techniczne i koszty produkcji dla scenarzystów czy twórców interfejsów asystentów głosowych.

Eksperci twierdzą, że premiera Gemini 3.1 Flash TTS to sygnał, że Google nie zamierza oddawać pola mniejszym, wyspecjalizowanym graczom. Choć ElevenLabs zbudował potężną markę i lojalną społeczność, Google dysponuje potężniejszą infrastrukturą i ekosystemem.

Czytaj więcej

Mati Staniszewski, założyciel ElevenLabs

Polski twórca giganta AI inwestuje nad Wisłą. Ten start-up chce zmienić handel

Mati Staniszewski, założyciel jednego z najgorętszych jednorożców branży AI, wykłada pieniądze na warszawską spółkę stworzoną przez Turków. Pieniąd...

W prestiżowym zestawieniu Artificial Analysis TTS Leaderboard, model Google AI Studio osiągnął wynik Elo, dający mu podium. W rankingu Speech Arena Leaderboard, model Gemini 3.1 Flash TTS zajął drugie miejsce, bezpośrednio wyprzedzając Eleven v3 (najnowsze rozwiązanie od ElevenLabs).

Google wskazuje, że stawia nie tylko na jakość głosu, ale i bezpieczeństwo, co w dobie deepfake’ów staje się kluczowym argumentem choćby dla klientów korporacyjnych. Każdy dźwięk wygenerowany przez nowy model jest automatycznie oznaczany znakiem wodnym SynthID. To autorska, niezauważalna dla ludzkiego ucha technologia, która pozwala zidentyfikować treści stworzone przez AI bez pogorszenia jakości audio. W świecie, gdzie dezinformacja głosowa staje się realnym zagrożeniem, ten „cyfrowy paszport” ma potencjał stać się standardem.

Model jest już dostępny w wersji podglądu (preview) w Gemini API, Google AI Studio oraz Vertex AI. Zintegrowano go również z usługą Google Vids dla użytkowników Workspace.

Reklama

Technologie Sztuczna Inteligencja Firmy Google AI ElevenLabs

Promowane treści

Reklama

REKLAMA: automatycznie wyświetlimy artykuł za 15 sekund.

Reklama