- -

Text denormalization system based on neural models for Spanish and Catalan

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Text denormalization system based on neural models for Spanish and Catalan

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.advisor Segarra Soriano, Encarnación es_ES
dc.contributor.advisor Hurtado Oliver, Lluis Felip es_ES
dc.contributor.advisor Ahuir Esteve, Vicent es_ES
dc.contributor.author Vicente Cantero, Violeta es_ES
dc.date.accessioned 2024-09-11T07:24:16Z
dc.date.available 2024-09-11T07:24:16Z
dc.date.created 2024-07-16
dc.date.issued 2024-09-11 es_ES
dc.identifier.uri http://hdl.handle.net/10251/207955
dc.description.abstract [EN] Automatic speech recognition systems usually generate a sequence of lowercase words without punctuation. To improve human readability and facilitate further processing of the output with NLP tools, it is usually desirable to fully restore the text to the standard orthographic conventions for the target language. This task of denormalization, known as Inverse Text Normalization (ITN), is the process of converting the output of an automatic speech recognition system into its corresponding written form. This includes predicting punctuation and capitalization based on context, as well as making proper use of accents and spacing. A corpus of journalistic news in Catalan and Spanish, DACSA, is available, providing a col- lection of (article, summary) pairs. The corpus contains news from different journalistic sources. This work proposes using neural models for the denormalization of articles and summaries from the DACSA corpus. To achieve this, a bilingual Spanish-Catalan language model is pre-trained, and a fine-tuning process for the denormalization task is performed. To obtain a normalized version of the corpus, various automatic (self-objective) normalization and noise tasks are applied, such as: converting the text to uppercase, lowercase, or a combination of these, removing punctuation, or introducing spelling errors. es_ES
dc.description.abstract [CA] Els sistemes de reconeixement automàtic de veu solen generar una seqüència de paraules en minúscules i sense puntuació. Per millorar la llegibilitat humana i facilitar el processament posterior de la sortida amb eines de Processament de Llenguatje Natural (PLN), generalment és desitjable restaurar completament el text a les convencions ortogràfques estàndard de l’idioma objectiu. Aquesta tasca de desnormalització, coneguda com a Normalització Inversa del Text (ITN), és el procés de convertir la sortida d’un sistema de reconeixement automàtic de veu en la seva forma escrita corresponent. Això inclou tant predir la puntuació i la capitalització segons el context, com fer un ús adequat dels accents i els espais. EL corpus de notícies periodístiques en català i espanyol anomenat DACSA s’ha emprat per tal f, proporcionant una col·lecció de parells (article, resum). El corpus conté notícies de diferents fonts periodístiques. Aquest treball proposa l’ús de models neuronals per a la desnormalització d’articles i resums del corpus DACSA. Per aconseguir això, es preentrena un model de llenguatge bilingüe espanyol-català i es realitza un procés d’ajust f (fne-tuning) per a la tasca de desnormalització. Per obtenir una versió normalitzada del corpus, s’apliquen diverses tasques automàtiques de normalització i soroll, com ara: convertir el text a majúscules, minúscules o una combinació d’aquestes, eliminar la puntuació o introduir errors ortogràfcs. es_ES
dc.description.abstract [ES] Los sistemas de reconocimiento automático de voz suelen generar una secuencia de palabras en minúsculas y sin puntuación. Para mejorar la legibilidad humana y facilitar el procesamiento posterior de la salida con herramientas de Procesamiento de Lenguaje Natural (PLN), es gen- eralmente deseable restaurar completamente el texto a las convenciones ortográficas estándar del idioma objetivo. Esta tarea de desnormalización, conocida como Normalización Inversa del Texto (ITN), es el proceso de convertir la salida de un sistema de reconocimiento automático de voz en su forma escrita correspondiente. Esto incluye predecir la puntuación y la capitalización según el contexto, así como hacer un uso adecuado de los acentos y los espacios. El corpus de noticias periodísticas en catalán y español llamado DACSA se ha usado para tal fin, proporcionando una colección de pares (artículo, resumen). El corpus contiene noticias de diferentes fuentes periodísticas. Este trabajo propone el uso de redes neuronales para la desnor- malización de artículos y resúmenes del corpus DACSA. Para lograr esto, se preentrena un modelo de lenguaje bilingüe español-catalán y se realiza un proceso de ajuste fino (fine-tuning) para la tarea de desnormalización. Para obtener una versión normalizada del corpus, se aplican diversas tareas automáticas de normalización y ruido, tales como: convertir el texto a mayúsculas, minúsculas o una combinación de ambas, eliminar la puntuación o introducir errores ortográficos. es_ES
dc.format.extent 62 es_ES
dc.language Inglés es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Text denormalization es_ES
dc.subject Journalistic texts es_ES
dc.subject Transformers es_ES
dc.subject Catalan es_ES
dc.subject Spanish es_ES
dc.subject Desnormalización de texto es_ES
dc.subject Textos periodísticos es_ES
dc.subject Catalán es_ES
dc.subject Español es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Grado en Ingeniería Informática-Grau en Enginyeria Informàtica es_ES
dc.title Text denormalization system based on neural models for Spanish and Catalan es_ES
dc.title.alternative Sistema de desnormalización de textos basado en modelos neuronales para español y catalán es_ES
dc.title.alternative Sistema de desnormalització de text basat en models neuronals per a l'espanyol i el català es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica es_ES
dc.description.bibliographicCitation Vicente Cantero, V. (2024). Text denormalization system based on neural models for Spanish and Catalan. Universitat Politècnica de València. http://hdl.handle.net/10251/207955 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\159967 es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem