Mostrar el registro sencillo del ítem
dc.contributor.advisor | Segarra Soriano, Encarnación | es_ES |
dc.contributor.advisor | Hurtado Oliver, Lluis Felip | es_ES |
dc.contributor.advisor | Ahuir Esteve, Vicent | es_ES |
dc.contributor.author | Vicente Cantero, Violeta | es_ES |
dc.date.accessioned | 2024-09-11T07:24:16Z | |
dc.date.available | 2024-09-11T07:24:16Z | |
dc.date.created | 2024-07-16 | |
dc.date.issued | 2024-09-11 | es_ES |
dc.identifier.uri | http://hdl.handle.net/10251/207955 | |
dc.description.abstract | [EN] Automatic speech recognition systems usually generate a sequence of lowercase words without punctuation. To improve human readability and facilitate further processing of the output with NLP tools, it is usually desirable to fully restore the text to the standard orthographic conventions for the target language. This task of denormalization, known as Inverse Text Normalization (ITN), is the process of converting the output of an automatic speech recognition system into its corresponding written form. This includes predicting punctuation and capitalization based on context, as well as making proper use of accents and spacing. A corpus of journalistic news in Catalan and Spanish, DACSA, is available, providing a col- lection of (article, summary) pairs. The corpus contains news from different journalistic sources. This work proposes using neural models for the denormalization of articles and summaries from the DACSA corpus. To achieve this, a bilingual Spanish-Catalan language model is pre-trained, and a fine-tuning process for the denormalization task is performed. To obtain a normalized version of the corpus, various automatic (self-objective) normalization and noise tasks are applied, such as: converting the text to uppercase, lowercase, or a combination of these, removing punctuation, or introducing spelling errors. | es_ES |
dc.description.abstract | [CA] Els sistemes de reconeixement automàtic de veu solen generar una seqüència de paraules en minúscules i sense puntuació. Per millorar la llegibilitat humana i facilitar el processament posterior de la sortida amb eines de Processament de Llenguatje Natural (PLN), generalment és desitjable restaurar completament el text a les convencions ortogràfques estàndard de l’idioma objectiu. Aquesta tasca de desnormalització, coneguda com a Normalització Inversa del Text (ITN), és el procés de convertir la sortida d’un sistema de reconeixement automàtic de veu en la seva forma escrita corresponent. Això inclou tant predir la puntuació i la capitalització segons el context, com fer un ús adequat dels accents i els espais. EL corpus de notícies periodístiques en català i espanyol anomenat DACSA s’ha emprat per tal f, proporcionant una col·lecció de parells (article, resum). El corpus conté notícies de diferents fonts periodístiques. Aquest treball proposa l’ús de models neuronals per a la desnormalització d’articles i resums del corpus DACSA. Per aconseguir això, es preentrena un model de llenguatge bilingüe espanyol-català i es realitza un procés d’ajust f (fne-tuning) per a la tasca de desnormalització. Per obtenir una versió normalitzada del corpus, s’apliquen diverses tasques automàtiques de normalització i soroll, com ara: convertir el text a majúscules, minúscules o una combinació d’aquestes, eliminar la puntuació o introduir errors ortogràfcs. | es_ES |
dc.description.abstract | [ES] Los sistemas de reconocimiento automático de voz suelen generar una secuencia de palabras en minúsculas y sin puntuación. Para mejorar la legibilidad humana y facilitar el procesamiento posterior de la salida con herramientas de Procesamiento de Lenguaje Natural (PLN), es gen- eralmente deseable restaurar completamente el texto a las convenciones ortográficas estándar del idioma objetivo. Esta tarea de desnormalización, conocida como Normalización Inversa del Texto (ITN), es el proceso de convertir la salida de un sistema de reconocimiento automático de voz en su forma escrita correspondiente. Esto incluye predecir la puntuación y la capitalización según el contexto, así como hacer un uso adecuado de los acentos y los espacios. El corpus de noticias periodísticas en catalán y español llamado DACSA se ha usado para tal fin, proporcionando una colección de pares (artículo, resumen). El corpus contiene noticias de diferentes fuentes periodísticas. Este trabajo propone el uso de redes neuronales para la desnor- malización de artículos y resúmenes del corpus DACSA. Para lograr esto, se preentrena un modelo de lenguaje bilingüe español-catalán y se realiza un proceso de ajuste fino (fine-tuning) para la tarea de desnormalización. Para obtener una versión normalizada del corpus, se aplican diversas tareas automáticas de normalización y ruido, tales como: convertir el texto a mayúsculas, minúsculas o una combinación de ambas, eliminar la puntuación o introducir errores ortográficos. | es_ES |
dc.format.extent | 62 | es_ES |
dc.language | Inglés | es_ES |
dc.publisher | Universitat Politècnica de València | es_ES |
dc.rights | Reserva de todos los derechos | es_ES |
dc.subject | Text denormalization | es_ES |
dc.subject | Journalistic texts | es_ES |
dc.subject | Transformers | es_ES |
dc.subject | Catalan | es_ES |
dc.subject | Spanish | es_ES |
dc.subject | Desnormalización de texto | es_ES |
dc.subject | Textos periodísticos | es_ES |
dc.subject | Catalán | es_ES |
dc.subject | Español | es_ES |
dc.subject.classification | LENGUAJES Y SISTEMAS INFORMATICOS | es_ES |
dc.subject.other | Grado en Ingeniería Informática-Grau en Enginyeria Informàtica | es_ES |
dc.title | Text denormalization system based on neural models for Spanish and Catalan | es_ES |
dc.title.alternative | Sistema de desnormalización de textos basado en modelos neuronales para español y catalán | es_ES |
dc.title.alternative | Sistema de desnormalització de text basat en models neuronals per a l'espanyol i el català | es_ES |
dc.type | Proyecto/Trabajo fin de carrera/grado | es_ES |
dc.rights.accessRights | Abierto | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica | es_ES |
dc.description.bibliographicCitation | Vicente Cantero, V. (2024). Text denormalization system based on neural models for Spanish and Catalan. Universitat Politècnica de València. http://hdl.handle.net/10251/207955 | es_ES |
dc.description.accrualMethod | TFGM | es_ES |
dc.relation.pasarela | TFGM\159967 | es_ES |