Na wykorzystaniu zaawansowanych systemów sztucznej inteligencji w branży audio swój globalny sukces zbudował polski jednorożec – ElevenLabs. W jego ślady idzie teraz Revoize. Start-up przekonuje, że pod względem pewnych parametrów jest już od niego lepszy. Twórcy technologii poprawiającej jakość mowy powołują się na wskaźnik techniczny MOS według normy ITU-T P.800 i przekonują, że stworzyli najlepsze na świecie rozwiązanie, „idąc łeb w łeb z Adobe Podcast Enhance v2, a przebijając ElevenLabs”.
Dla firmy Stanisława Raczyńskiego to ważny etap – spółka uruchomiła już aplikację do tzw. post-processingu, a teraz kończy negocjacje z dużym klientem, znanym producentem telefonów. Przy tym liczba subskrybentów aplikacji webowej Revoize przekroczyła już pułap 5 tys.
Kolejny jednorożec? Przerabianie dźwięku i obrazu polską specjalizacją
Stanisław Raczyński, który posiada 18 lat doświadczenia w sektorze badań i rozwoju, to ekspert w dziedzinie AI i przetwarzania mowy – pracował nad rozwojem technologii mowy w Intelu i Cisco, współtworzył Sayso.ai oraz brał udział w opracowaniu zaawansowanych systemów poprawy dźwięku w BabbleLabs (projekt został przejęty właśnie przez Cisco). Teraz rozwija technologię generatywnej AI, która poprawia jakość mowy w czasie rzeczywistym, eliminując szumy, zakłócenia i przywracając naturalną klarowność i głębię głosu. To ważne dla systemów wideokonferencji i rozwiązań służących do rozmów online, ale także podcastów czy nagrań multimedialnych. Raczyński, który posiada doktorat zdobyty na Uniwersytecie Tokijskim, twierdzi, że jego technologia „znacząco wykracza poza istniejące rozwiązania” redukcji szumów, dodatkowo rekonstruując uszkodzone fragmenty mowy i „poprawiając jakość nagrań i komunikacji głosowej w różnych scenariuszach zastosowań”. Revoize widzi przyszłość dla swojego rozwiązania zarówno w zastosowaniach konsumenckich, jak i w obszarze militarnym, gdzie może pomóc w komunikacji na polu walki, w trudnych warunkach akustycznych.\
Czytaj więcej
Inwestorzy wpompowali w firmę ElevenLabs, która tworzy syntetyczne głosy trudne do odróżnienia od...
– Pomysł na biznes zrodził się z moich doświadczeń w BabbleLabs, a później w Cisco, gdzie pracowałem nad technologią czyszczenia mowy pierwszej generacji. Uważałem jednak, że generatywna AI ma o wiele większy potencjał na poprawę jakości – mówi nam Raczyńki. – Generatywna rekonstrukcja pozwala na pełne kondycjonowanie sygnału mowy, nie tylko proste usuwanie szumu tła, ale też poprawę barwy głosu, usunięcie pogłosu, artefaktów kodeków – zauważa założyciel Revoize.