Lidé

13. května 2024

Oceněný student ze soutěže Brno Ph.D. Talent chce překročit hranice neurálních konverzačních systémů

Alexander Polok získal stipendijní program pro mladé vědce | Autor: Václav Koníček
​​Holistické modelování dialogu s využitím voicebota, který dokáže komunikovat s uživatelem v krizových situacích – to má umožnit výzkum Alexandra Poloka z FIT VUT. Doktorand působí ve skupině pro zpracování řeči BUTspeech@FIT a jeho ambiciózní projekt získal ocenění i v patnáctém ročníku soutěže Brno Ph.D. Talent. Zaměřit se chce na zlepšení modelování přirozených a kontextuálních procesů při používání neurálních konverzačních systémů.

Alexandra Poloka k výzkumu motivují omezení aktuálně rozšířených konverzačních systémů, které mají komponentně sestavenou architekturu. Systémy si vedou poměrně dobře v interakcích založených na jednoduchých úkolech, selhávají však v situacích, kdy mají využít delší kontext konverzace a poskytnout přirozený zážitek z dialogu.

Ve výzkumu se proto Polok chce zaměřit na efektivní trénování modelů pro rozpoznání řeči, konverzační jazykové modelování a syntézu řeči. Cílem je integrovat tyto modely do jednoho celku. Sníží se tak informační ztráta při interakci mezi modely, zmenší se velikost výsledného modelu a zkrátí se celková reakční doba. Vzniknout by tak mohl konverzační systém, který najde využití například v projektu využívajícím voicebota pro příjem tísňových volání na linky 150 a 112.

„Snažíme se vyvinout agenta, který dokáže s uživateli komunikovat v případě rozsáhlé katastrofy. Tísňové telefonní linky by v takové krizové situaci byly přetížené, proto chceme vyvinout podpůrný systém k plošnému nasazení. Dokázal by nejen informovat uživatele, ale odpovídat mu také na otázky a současně zpracovávat jeho odpovědi,“ vysvětluje Polok.
Projekt, se kterým doktorand uspěl i v soutěži Brno Ph.D. Talent, je aktuálně rozdělený na 3 fáze. „První je automatické rozpoznávání řeči, kdy potřebujeme mluvenou řeč dostat do podoby psaného textu. Následuje spojení automatického rozpoznávače řeči s jazykovým modelem, abychom dokázali odpovídat a generovat odpovědi na to, co uživatel říká. Třetím krokem je pak přidání syntetizátoru řeči,“ popisuje Polok.

„Řeč je velmi bohatá, a pokud ji převedeme na text, nutně přijdeme o nějakou informaci – ať už melodii řeči či emoční tonalitu. Já se zaměřuji na to, jak tuto informaci neztratit, ale rovnou ji integrovat do jazykového modelu a syntetyzátoru řeči. Výsledkem by tak měla být méně monotónní syntetická řeč,“ dodává.

„Informace v konverzačním systému proplouvají mezi automatickým rozpoznávačem řeči a jazykovým modelem – to je moment, kdy dochází ke ztrátě informace. Přecházíme z informačně bohaté řeči obsahující desítky tisíc bitů za sekundu na text, které obsahuje stovky bitů za sekundu. Já vezmu automatický rozpoznávač řeči, odstraním z něj dekodér, který produkuje text, a ponechám jenom část modelující vstupní signál. Ta je následně transformována tak, aby ležela v prostoru blízko reprezentacím, na kterých byl původně učen jazykový model. Celý systém je následně dotrénován. Informace je tedy předána jazykovému modelu v podobě velké matice čísel a tu model dále zpracuje zase do podoby čísel,“ popisuje práci s neuronovými sítěmi doktorand. Nedochází tak k významné kompresi informace, jako se to děje u standardních komponentně založených systémů. Emoční složka řeči je pak ve výsledku stále zachována.

Výzkum se právě nachází v první fázi. Voicebot připravený pro aplikaci na tísňové linky by měl být hotov do konce roku 2026.

(mar)

Témata

Související články:
Tomáš Dacík se věnuje statické analýze programů. Za práci dostal ocenění Brno Ph.D. Talent
Doktorand z FIT hledá chyby, kvůli kterým „zamrzají“ aplikace
Stanislav Smatana vymýšlí software umožňující analýzu střevní mikroflóry. Za svůj výzkum získal podporu od Brna
Na FIT VUT se studenti mohli zapojit do čtyřiadvacetihodinového hackhatonu
Student učí chodit šestinohého robota. Inspiraci hledá u brouků