Analýza možností tvorby text-to-speech modulu pre multimediálne aplikácie
Ciele projektu
Projekt "Analýza možností tvorby text-to-speech modulu pre multimediálne aplikácie", realizovaný s podporou Európskej únie, sa zameriava na komplexné preskúmanie technológií umožňujúcich prevod písaného textu na hovorenú reč, predovšetkým v slovenskom jazyku. Hlavným cieľom projektu bolo analyzovať súčasné riešenia v oblasti syntézy reči, porovnať ich kvalitu, flexibilitu a možnosti využitia, a vytvoriť podklady pre návrh moderného softvérového riešenia. V rámci projektu sme sa venovali najmä technológiám využívajúcim neurónové siete a umelú inteligenciu, ktoré dnes predstavujú najpokročilejší prístup k tvorbe prirodzene znejúcej reči. Zároveň sme sa zamerali na špecifiká slovenského jazyka, ako sú správna výslovnosť, intonácia a prosódia, ktoré sú kľúčové pre dosiahnutie vysokej kvality hlasového výstupu.
Výstupy projektu
Výstupom projektu je komplexná analýza dostupných technológií a služieb na syntézu reči, vrátane prehľadu komerčných cloudových riešení ako ElevenLabs, Google Cloud TTS, Microsoft Azure Speech a Amazon Polly, ako aj open-source knižníc ako XTTS2, PiperTTS či StyleTTS2. Na základe vykonanej analýzy bol vypracovaný návrh logickej štruktúry budúceho softvérového riešenia, ktorý zahŕňa všetky kľúčové komponenty TTS systému – od spracovania vstupného textu až po generovanie finálneho audio výstupu. Projekt tiež priniesol odporúčania pre výber technologického stacku, ako aj vyhodnotenie možností tréningu vlastných modelov pre slovenský jazyk.
Prínosy a budúce využitie
Výsledky projektu predstavujú významný posun v oblasti digitálnych riešení pre slovenský trh. Vytvorená analýza a návrh architektúry umožnia rýchlejší a efektívnejší vývoj multimediálnych aplikácií s hlasovou podporou v slovenčine. Tým sa otvárajú nové možnosti pre kreatívny priemysel, obchodné aplikácie a inovatívne produkty, ktoré budú využívať umelú inteligenciu na tvorbu kvalitného hlasového obsahu. Projekt tak vytvára pevný základ pre budúci vývoj vlastného slovenského text-to-speech systému, nezávislého od zahraničných riešení a lepšie prispôsobeného domácim potrebám.
Financovaný Európskou úniou NextGenerationEU
2002 - 2021