Resumen:
|
[ES] La finalidad del presente trabajo es mostrar cuantitativamente el efecto positivo de una correcta limpieza, normalización y clasificación de los datos en la creación de motores de traducción.
Para ello, por un lado, ...[+]
[ES] La finalidad del presente trabajo es mostrar cuantitativamente el efecto positivo de una correcta limpieza, normalización y clasificación de los datos en la creación de motores de traducción.
Para ello, por un lado, se realizará un preproceso de limpieza y normalización de los datos para la combinación de idiomas inglés-español. Por otro lado, se desarrollará un clasificador de la temática de los textos que nos ayude a mejorar la traducción en un dominio determinado.
El objetivo es poder entrenar dos máquinas de traducción automática: la primera con datos limpios, normalizados y clasificados en el dominio ¿Health¿, y la segunda con datos ¿sucios¿, es decir, sin ninguno de los procedimientos anteriormente nombrados.
Finalmente, se realizará una evaluación cuantitativa para determinar la calidad de la traducción, utilizando las medidas usuales para validar la aproximación propuesta en este trabajo de final de grado.
[-]
[EN] The purpose of this work is to show quantitatively the positive effect of a correct cleaning,
normalization and classification of the data in the creation of translation engines.
To do this, on the one hand, a data ...[+]
[EN] The purpose of this work is to show quantitatively the positive effect of a correct cleaning,
normalization and classification of the data in the creation of translation engines.
To do this, on the one hand, a data cleaning and normalization pre-process will be carried
out for the English-Spanish language combination. On the other hand, a classifier of the
theme of the texts will be developed to help us improve the translation in a given domain.
The objective is to be able to train two automatic translation machines: the first with
clean, normalized and classified data in the "Health" domain, and the second with "dirty"
data, that is, without any of the aforementioned procedures.
Finally, a quantitative evaluation will be carried out to determine the quality of the
translation, using the usual measures to validate the approach proposed in this final
degree project.
[-]
[CA] La finalitat del present treball és mostrar quantitativament l'efecte positiu d'una correcta neteja, normalització i classificació de les dades en la creació de motors de traducció. Per això, d'una banda, es farà un ...[+]
[CA] La finalitat del present treball és mostrar quantitativament l'efecte positiu d'una correcta neteja, normalització i classificació de les dades en la creació de motors de traducció. Per això, d'una banda, es farà un preprocés de neteja i normalització de les dades per a la combinació d'idiomes anglès-espanyol. D'altra banda, es desenvoluparà un classificador de la temàtica dels textos que ens ajudi a millorar-ne la traducció en un domini determinat. L'objectiu és poder entrenar dues màquines de traducció automàtica: la primera amb dades netes, normalitzades i classificades al domini “Health”, i la segona amb dades “brutes”, és a dir, sense cap dels procediments anteriorment anomenats. Finalment, es farà una avaluació quantitativa per determinar la qualitat de la traducció, utilitzant les mesures usuals per validar l'aproximació proposada en aquest treball de final de grau.
[-]
|