Resumen:
|
[ES] El reconeixement automàtic de la parla (Automatic Speech Recognition, ASR) és una tasca de processament del llenguatge natural molt activa en l'àrea de la intel·ligència artificial, amb moltes aplicacions primàries i ...[+]
[ES] El reconeixement automàtic de la parla (Automatic Speech Recognition, ASR) és una tasca de processament del llenguatge natural molt activa en l'àrea de la intel·ligència artificial, amb moltes aplicacions primàries i secundàries, com el subtitulat automàtic i assistit per ordinador, la traducció de veu, i el doblatge de veu, entre d'altres. En l'última dècada, aquesta tasca ha rebut molta atenció per part de les principals empreses tecnològiques i laboratoris de recerca a causa de les grans millores de rendiment obtingudes en incorporar tècniques d'aprenentatge profund. Com a resultat, els sistemes ASR de propòsit general, entrenats amb grans quantitats de dades, poden exhibir una qualitat de transcripció suficientment acurada en moltes aplicacions, però no en totes. Sota dominis d'aplicació molt específics, caracteritzats per factors lèxics (argots i paraules clau particulars, p.e. física de partícules, oncologia, etc.), acústics (p.e., camp llunyà, reverberacions, compressió d'àudio amb pèrdua, etc.) i/o lingüístics (p.e. dialectes locals, parlants no nadius, parla espontània, etc.), els sistemes ASR d'ús general solen mostrar pèrdues significatives de qualitat a causa de la seva manca d'especialització. En aquest treball s'exploren tècniques eficients d'adaptació de domini per a sistemes ASR híbrids de propòsit general, amb l'objectiu de millorar la seva qualitat de transcripció en aquests escenaris. Per dur a terme aquest treball s'utilitzaran dades, tecnologia i experiència adquirida i desenvolupada pel grup de recerca MLLP-VRAIN en la darrera dècada.
[-]
[EN] Automatic Speech Recognition (ASR) is a very active natural language processing task in artificial intelligence, with many primary and downstream applications, such as computed-aided and automatic subtitling, speech ...[+]
[EN] Automatic Speech Recognition (ASR) is a very active natural language processing task in artificial intelligence, with many primary and downstream applications, such as computed-aided and automatic subtitling, speech translation and speech dubbing, among others. In the last decade, this area has received a lot of attention from major technology companies and research laboratories due to vast performance improvements obtained by incorporating deep learning techniques. As a result, general-purpose ASR systems, trained with large amounts of data, can exhibit overall good-enough transcription quality in many applications, but not in all. Under very specific application domains, either characterized by lexical (particular jargons and keywords, e.g. particle physics, oncology, etc.), acoustic (e.g. far-field, echo, lossy audio compression, etc.) and/or linguistic (e.g. local dialects, non-native speakers, spontaneous speech, etc.) factors, general-purpose ASR systems typically show significant drops of performance due to their lack of specialization. In this work we explore efficient domain adaptation techniques for general-purpose hybrid ASR systems, aiming to boost their transcription quality in these scenarios. In order to carry out this work, data, technology and experience acquired and developed by the MLLP-VRAIN research group in the last decade will be used.
[-]
|