Lidé
zVUT.cz

Lidé

3. července 2026

„To, že aktuální systémy nefungují dobře, je velkou motivací,“ říká Alexander Polok, který uspěl v Ceně Josepha Fouriera

Úspěšný doktorand FIT VUT Alexander Polok. | Autor: Josef Vyškovský

Letošním držitelem 2. místa Ceny Josepha Fouriera je doktorand FIT VUT Alexander Polok z Ústavu počítačové grafiky a multimédií. Polok, který si v soutěži studentů doktorského studia v oboru počítačových věd a informatiky připsal navíc i speciální cenu IT4Innovations, je velmi nadějným mladým výzkumníkem. Zaznamenal už výrazné mezinárodní úspěchy, má za sebou několik zahraničních pobytů a také projektů. Jeho odborný zájem spadá do oblasti řečových a jazykových technologií. V dynamickém oboru jej zaujalo primárně automatické rozpoznávání řeči v náročných podmínkách – ať už jde o vliv dozvuku, hovorový jazyk, či konverzace vícero mluvčích (např. v rámci meetingů), kde se hlasy navíc překrývají. Jde o oblast, kde před odborníky stojí řada výzev, jak Polok konstatoval během rozhovoru s námi.

Alexander Polok začínal svůj doktorát u konverzačních systémů (voicebotů). Právě tam si uvědomil zásadní problém, který ve svém výzkumu řeší dodnes: Při klasickém modulárním designu dochází během přepisu řeči na text ke ztrátám informací obsažených v původní promluvě (např. tonality, emocí a kontextu). Tyto systémy pak často selhávají, když je třeba využít širší kontext nebo paralingvistické informace. Polok proto zkoumal, jak integrovat rozpoznávání řeči a jazykové modelování tak, aby k těmto ztrátám nedocházelo. Místo běžného řetězce „řeč → text → velký jazykový model“ volí jiný přístup. „Abychom mohli vedle ASR, tedy přepisu řeči na text, realizovat třeba sumarizaci sdělení nebo odpovídání na otázky, máme dvě možnosti: Buď lze text přepsat a následně zadat LLM daný úkol, třeba sumarizaci. Anebo se využijí skryté reprezentace (číselné řady, které navíc mohou kódovat např. tonalitu a emoce v řeči), které se transformují, aby odpovídaly reprezentacím jazykového modelu. Děje se tak s pomocí adaptérů, které si lze představit jako malé neuronové sítě převádějící výstup řečového modelu do podoby, s níž umí pracovat jazykový model,“ komentuje postup Polok. „Nebo si to taky můžete představit tak, že všechny tři modely, tedy neuronové sítě, ‚splácnete‘ dohromady. Když se k tomu pak přidají bloky pro transformace, zajistíme, že se jeden model může nasadit pro celý proces z řeči do řeči. A zabráníme ztrátě sémantické informace nebo emocí v původní výpovědi,“ vypořádává se Polok statečně s žádostí o co nejelementárnější popis základní motivace své práce.

S postupem času se Alexander Polok začal zaměřovat na konverzace vícero mluvčích a jejich přepis. „Aktuálně pracuji s daty situací, které zahrnují 2 až 8, případně i více mluvčích. Charakteristikou těchto situací je overlap, tedy stav, kdy se překrývá promluva několika řečníků – může jít i o 80 % veškeré komunikace. A zásadní je, že i ty nejlepší řečové a jazykovo-řečové modely při zpracování podobných situací selhávají. Já jsem dva roky zpět navrhl metodu, která by mohla přispět k řešení, a nadále ji rozšiřuji,“ komentuje Polok své aktuální velké téma.

Od terapeutických záznamů po Dixtral

Jak se Alexander Polok vůbec k tématu řečových technologií dostal? „Během studia na FITu se člověk setká s řadou výzkumných skupin. Jednou z těch nejúspěšnějších jsou řečaři, Speech@FIT. Což mě samozřejmě motivovalo začít s nimi spolupracovat. Nejprve jsem dělal s Pavlem Matějkou na nástroji DeePsy, který slouží k přepisu terapeutických sezení, tedy situací se dvěma mluvčími. Konkrétně jsem se věnoval diarizaci, odlišení toho, kdy kdo mluví, a poté ASR specificky pro češtinu.“ Práce na DeePsy byla tématem Polokovy bakalářské a diplomové práce, výzkum jej motivoval k tomu zkusit si doktorát. V létě 2023 se zúčastnil výzkumného workshopu JSALT ve francouzském Le Mans, kde se už zabýval spojováním modelů během ASR, tedy situacemi, kdy zpracování lidské řeči využívá skryté reprezentace a nejde o čistý přepis řeči na text. „Pak jsem se zapojil do výzkumné soutěže CHiME, která se už více než 10 let soustředí na zpracování řeči v obtížných podmínkách, což je například situace místnosti s jedním mikrofonem snímajícím řeč několika mluvčích,“ popisuje další krok své odborné cesty Polok. Řešení, které pro CHiME navrhoval, se stalo základem stěžejního výsledku jeho práce: nástroje Dixtral.

Dixtral, na němž Polok spolupracoval s výzkumníky z FITu, Carnegie Mellon University (a který volně navazuje na jeho dřívější spolupráci s Johns Hopkins University), v sobě spojuje dvě funkcionality: Dřívější Polokův nástroj DiCoW, který umí vyselektovat řeč konkrétního mluvčího pomocí diarizačních informací (údajů, v kterých časových úsecích subjekt hovořil); a zvukový AI model Voxtral (od francouzské společnosti Mistral AI), který dokáže zajistit třeba sumarizaci a odpovídání na otázky. Dixtral proto dokáže pracovat s nahrávkami, kde hovoří více lidí, umí rozlišit jejich řeč a nad výpovědí vybraného člověka vytvářet přepis, shrnutí nebo odpovědi na otázky. Jeho hlavní předností je, že propojuje diarizaci (určuje řečníky a kdy hovoří) a porozumění mluvenému obsahu v jednom systému, takže lépe zvládá složité konverzace a překrývající se řeč. Navíc je schopen pracovat s delšími nahrávkami, než bývá zvykem. „Aktuálně mi přijali článek pro letošní konferenci Interspeech, jehož tématem je právě schopnost tohoto nástroje sumarizovat výpovědi, určovat klíčové téma nebo odpovídat na kladené otázky k proslovům řečníků,“ popisuje Polok univerzálnost Dixtralu. „Dixtral také nevyžaduje enrolment, tedy krátkou vstupní nahrávku, která se vkládá do databáze a na jejímž základě je řečník za běhu systému v promluvách identifikován,“ zdůrazňuje Polok další výhodu svého řešení. Enrolment má totiž několik slabin: Musí být k dispozici předem, je to navíc krátká nahrávka z jiných akustických podmínek, která omezuje přesnost následné identifikace. „Dixtralu postačuje k práci dílčí, lokální informace, nemusí mít globální obraz, nepotřebuje identitu mluvčího. Funguje pak napříč různými jazyky a prostředími,“ uzavírá Polok svůj popis fungování nástroje.

Dixtral propojuje diarizaci (určuje řečníky a kdy hovoří) a porozumění mluvenému obsahu v jednom systému. | Autor: Archiv FIT VUT

Budoucnost? Spousta práce před námi

Polokova řešení dnes inspirují i giganty typu Nvidia nebo NTT. Proč jej vůbec zpracování situací s vícero mluvčími zaujalo? „Asi proto, že existující řešení nefungují dostatečně dobře,“ říká s úsměvem. „Samozřejmě bych chtěl někdy dosáhnout stavu, kdy systémy ASR pro vícero mluvčích budou mít chybovost na stejné úrovni jako ty pro jednotlivce. Současné systémy mají chybovost v desítkách procent. Potenciál výzkumu je na deset, dvacet let,“ komentuje možnou budoucnost Polok. Sám zmiňuje i další výzvy: Situace, kdy nedochází ke změně mluvčího, ale jazyka promluvy. „Můj sen je věnovat se výzkumu, který využívají běžní lidé každodenně. Třeba pro zpracovávání meetingů. Za to, co se podařilo doposud, musím poděkovat výzkumné skupině, Honzovi Černockému, Lukáši Burgetovi. Opravdu si nemám na co stěžovat,“ uzavírá rozhovor s úsměvem Alexander Polok, oceněný 2. místem v letošní Ceně Josepha Fouriera.
Doplňme, že Alexanderovo řešení má potenciál stát se významným realizačním nástrojem v rámci projektu CZAI Factory, do nějž je zapojeno hned několik brněnských „řečařů“ a o němž jsme psali naposledy v květnu v souvislosti s jeho slavnostním zahájením.

Zdroj: FIT VUT

Související: Oceněný student ze soutěže Brno Ph.D. Talent chce překročit hranice neurálních konverzačních systémů - Lidé – Zprávy z VUT

Témata

Artificial intelligence Fakulta informačních technologií umělá inteligence

Související články:
Projekt FactDeMice: AI jako pomocník novinářů a firem, ne arbitr pravdy
Novinky z Fakulty informačních technologií zaujaly návštěvníky veletrhu IDET
Chybí konec hovoru, zahlásí unikátní program Netfox Detective
Nový software by měl umět říci, zda je volající šťastný
Miliony cestovatelů si pohodlněji plánují dovolenou díky absolventovi VUT