- -

Efficient domain adaptation techniques for hybrid automatic speech recognition systems

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Efficient domain adaptation techniques for hybrid automatic speech recognition systems

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Silvestre Cerdà, Joan Albert es_ES
dc.contributor.advisor Giménez Pastor, Adrián es_ES
dc.contributor.author Santamaría Jordá, Jaume es_ES
dc.date.accessioned 2023-09-28T07:40:23Z
dc.date.available 2023-09-28T07:40:23Z
dc.date.created 2023-07-26
dc.date.issued 2023-09-28 es_ES
dc.identifier.uri http://hdl.handle.net/10251/197263
dc.description.abstract [ES] El reconeixement automàtic de la parla (Automatic Speech Recognition, ASR) és una tasca de processament del llenguatge natural molt activa en l'àrea de la intel·ligència artificial, amb moltes aplicacions primàries i secundàries, com el subtitulat automàtic i assistit per ordinador, la traducció de veu, i el doblatge de veu, entre d'altres. En l'última dècada, aquesta tasca ha rebut molta atenció per part de les principals empreses tecnològiques i laboratoris de recerca a causa de les grans millores de rendiment obtingudes en incorporar tècniques d'aprenentatge profund. Com a resultat, els sistemes ASR de propòsit general, entrenats amb grans quantitats de dades, poden exhibir una qualitat de transcripció suficientment acurada en moltes aplicacions, però no en totes. Sota dominis d'aplicació molt específics, caracteritzats per factors lèxics (argots i paraules clau particulars, p.e. física de partícules, oncologia, etc.), acústics (p.e., camp llunyà, reverberacions, compressió d'àudio amb pèrdua, etc.) i/o lingüístics (p.e. dialectes locals, parlants no nadius, parla espontània, etc.), els sistemes ASR d'ús general solen mostrar pèrdues significatives de qualitat a causa de la seva manca d'especialització. En aquest treball s'exploren tècniques eficients d'adaptació de domini per a sistemes ASR híbrids de propòsit general, amb l'objectiu de millorar la seva qualitat de transcripció en aquests escenaris. Per dur a terme aquest treball s'utilitzaran dades, tecnologia i experiència adquirida i desenvolupada pel grup de recerca MLLP-VRAIN en la darrera dècada. es_ES
dc.description.abstract [EN] Automatic Speech Recognition (ASR) is a very active natural language processing task in artificial intelligence, with many primary and downstream applications, such as computed-aided and automatic subtitling, speech translation and speech dubbing, among others. In the last decade, this area has received a lot of attention from major technology companies and research laboratories due to vast performance improvements obtained by incorporating deep learning techniques. As a result, general-purpose ASR systems, trained with large amounts of data, can exhibit overall good-enough transcription quality in many applications, but not in all. Under very specific application domains, either characterized by lexical (particular jargons and keywords, e.g. particle physics, oncology, etc.), acoustic (e.g. far-field, echo, lossy audio compression, etc.) and/or linguistic (e.g. local dialects, non-native speakers, spontaneous speech, etc.) factors, general-purpose ASR systems typically show significant drops of performance due to their lack of specialization. In this work we explore efficient domain adaptation techniques for general-purpose hybrid ASR systems, aiming to boost their transcription quality in these scenarios. In order to carry out this work, data, technology and experience acquired and developed by the MLLP-VRAIN research group in the last decade will be used. es_ES
dc.format.extent 60 es_ES
dc.language Catalán es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reconocimiento (by) es_ES
dc.subject Adaptación al dominio es_ES
dc.subject Domain adaptation es_ES
dc.subject Reconocimiento automático del habla es_ES
dc.subject Automatic Speech Recognition (ASR) es_ES
dc.subject Reconeixement automàtic de la parla es_ES
dc.subject Adaptació al domini es_ES
dc.subject Aprenentatge automàtic es_ES
dc.subject Machine Learning es_ES
dc.subject Aprendizaje automático es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Máster Universitario en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·ligència Artificial, Reconeixement de Formes i Imatge Digital es_ES
dc.title Efficient domain adaptation techniques for hybrid automatic speech recognition systems es_ES
dc.title.alternative Técnicas eficientes de adaptación al dominio para sistemas híbridos de reconocimiento automático del habla es_ES
dc.title.alternative Efficient domain adaptation techniques for hybrid automatic speech recognition systems es_ES
dc.type Tesis de máster es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.description.bibliographicCitation Santamaría Jordá, J. (2023). Efficient domain adaptation techniques for hybrid automatic speech recognition systems. Universitat Politècnica de València. http://hdl.handle.net/10251/197263 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\155177 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem