Text denormalization system based on neural models for Spanish and Catalan

Vicente Cantero, Violeta

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Text denormalization system based on neural models for Spanish and Catalan

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: Vicente - Text ...

Tamaño: 1.232Mb

Formato: PDF

Abrir

dc.contributor.advisor	Segarra Soriano, Encarnación	es_ES
dc.contributor.advisor	Hurtado Oliver, Lluis Felip	es_ES
dc.contributor.advisor	Ahuir Esteve, Vicent	es_ES
dc.contributor.author	Vicente Cantero, Violeta	es_ES
dc.date.accessioned	2024-09-11T07:24:16Z
dc.date.available	2024-09-11T07:24:16Z
dc.date.created	2024-07-16
dc.date.issued	2024-09-11	es_ES
dc.identifier.uri	http://hdl.handle.net/10251/207955
dc.description.abstract	[EN] Automatic speech recognition systems usually generate a sequence of lowercase words without punctuation. To improve human readability and facilitate further processing of the output with NLP tools, it is usually desirable to fully restore the text to the standard orthographic conventions for the target language. This task of denormalization, known as Inverse Text Normalization (ITN), is the process of converting the output of an automatic speech recognition system into its corresponding written form. This includes predicting punctuation and capitalization based on context, as well as making proper use of accents and spacing. A corpus of journalistic news in Catalan and Spanish, DACSA, is available, providing a col- lection of (article, summary) pairs. The corpus contains news from different journalistic sources. This work proposes using neural models for the denormalization of articles and summaries from the DACSA corpus. To achieve this, a bilingual Spanish-Catalan language model is pre-trained, and a fine-tuning process for the denormalization task is performed. To obtain a normalized version of the corpus, various automatic (self-objective) normalization and noise tasks are applied, such as: converting the text to uppercase, lowercase, or a combination of these, removing punctuation, or introducing spelling errors.	es_ES
dc.description.abstract	[CA] Els sistemes de reconeixement automàtic de veu solen generar una seqüència de paraules en minúscules i sense puntuació. Per millorar la llegibilitat humana i facilitar el processament posterior de la sortida amb eines de Processament de Llenguatje Natural (PLN), generalment és desitjable restaurar completament el text a les convencions ortogràfques estàndard de l’idioma objectiu. Aquesta tasca de desnormalització, coneguda com a Normalització Inversa del Text (ITN), és el procés de convertir la sortida d’un sistema de reconeixement automàtic de veu en la seva forma escrita corresponent. Això inclou tant predir la puntuació i la capitalització segons el context, com fer un ús adequat dels accents i els espais. EL corpus de notícies periodístiques en català i espanyol anomenat DACSA s’ha emprat per tal f, proporcionant una col·lecció de parells (article, resum). El corpus conté notícies de diferents fonts periodístiques. Aquest treball proposa l’ús de models neuronals per a la desnormalització d’articles i resums del corpus DACSA. Per aconseguir això, es preentrena un model de llenguatge bilingüe espanyol-català i es realitza un procés d’ajust f (fne-tuning) per a la tasca de desnormalització. Per obtenir una versió normalitzada del corpus, s’apliquen diverses tasques automàtiques de normalització i soroll, com ara: convertir el text a majúscules, minúscules o una combinació d’aquestes, eliminar la puntuació o introduir errors ortogràfcs.	es_ES
dc.description.abstract	[ES] Los sistemas de reconocimiento automático de voz suelen generar una secuencia de palabras en minúsculas y sin puntuación. Para mejorar la legibilidad humana y facilitar el procesamiento posterior de la salida con herramientas de Procesamiento de Lenguaje Natural (PLN), es gen- eralmente deseable restaurar completamente el texto a las convenciones ortográficas estándar del idioma objetivo. Esta tarea de desnormalización, conocida como Normalización Inversa del Texto (ITN), es el proceso de convertir la salida de un sistema de reconocimiento automático de voz en su forma escrita correspondiente. Esto incluye predecir la puntuación y la capitalización según el contexto, así como hacer un uso adecuado de los acentos y los espacios. El corpus de noticias periodísticas en catalán y español llamado DACSA se ha usado para tal fin, proporcionando una colección de pares (artículo, resumen). El corpus contiene noticias de diferentes fuentes periodísticas. Este trabajo propone el uso de redes neuronales para la desnor- malización de artículos y resúmenes del corpus DACSA. Para lograr esto, se preentrena un modelo de lenguaje bilingüe español-catalán y se realiza un proceso de ajuste fino (fine-tuning) para la tarea de desnormalización. Para obtener una versión normalizada del corpus, se aplican diversas tareas automáticas de normalización y ruido, tales como: convertir el texto a mayúsculas, minúsculas o una combinación de ambas, eliminar la puntuación o introducir errores ortográficos.	es_ES
dc.format.extent	62	es_ES
dc.language	Inglés	es_ES
dc.publisher	Universitat Politècnica de València	es_ES
dc.rights	Reserva de todos los derechos	es_ES
dc.subject	Text denormalization	es_ES
dc.subject	Journalistic texts	es_ES
dc.subject	Transformers	es_ES
dc.subject	Catalan	es_ES
dc.subject	Spanish	es_ES
dc.subject	Desnormalización de texto	es_ES
dc.subject	Textos periodísticos	es_ES
dc.subject	Catalán	es_ES
dc.subject	Español	es_ES
dc.subject.classification	LENGUAJES Y SISTEMAS INFORMATICOS	es_ES
dc.subject.other	Grado en Ingeniería Informática-Grau en Enginyeria Informàtica	es_ES
dc.title	Text denormalization system based on neural models for Spanish and Catalan	es_ES
dc.title.alternative	Sistema de desnormalización de textos basado en modelos neuronales para español y catalán	es_ES
dc.title.alternative	Sistema de desnormalització de text basat en models neuronals per a l'espanyol i el català	es_ES
dc.type	Proyecto/Trabajo fin de carrera/grado	es_ES
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica	es_ES
dc.description.bibliographicCitation	Vicente Cantero, V. (2024). Text denormalization system based on neural models for Spanish and Catalan. Universitat Politècnica de València. http://hdl.handle.net/10251/207955	es_ES
dc.description.accrualMethod	TFGM	es_ES
dc.relation.pasarela	TFGM\159967	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

ETSINF - Trabajos académicos [5102]
Escola Tècnica Superior d'Enginyeria Informàtica

Mostrar el registro sencillo del ítem

Text denormalization system based on neural models for Spanish and Catalan

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Text denormalization system based on neural models for Spanish and Catalan

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)