Mostrar el registro sencillo del ítem
dc.contributor.advisor | Hurtado Oliver, Lluis Felip | es_ES |
dc.contributor.advisor | Segarra Soriano, Encarnación | es_ES |
dc.contributor.author | Quesada Zaragoza, Martín | es_ES |
dc.date.accessioned | 2020-09-03T08:42:53Z | |
dc.date.available | 2020-09-03T08:42:53Z | |
dc.date.created | 2020-07-14 | |
dc.date.issued | 2020-09-03 | es_ES |
dc.identifier.uri | http://hdl.handle.net/10251/149380 | |
dc.description.abstract | [EN] The use of controlled vocabularies has become widespread in many scientific and otherwise specialized fields in order to classify and facilitate the search of domain-specific information that is stored digitally. These resources have to be built by experts in the field, as they condense preexisting knowledge. Their content is usually monolingual, which means that they cannot be used to classify documents in other languages. Inducing these controlled vocabularies into another language using human translation is costly, given that they contain large amounts of data. Furthermore, the terminology present in them is heavily specialised, which means that translators with expertise in the scientific discipline at hand are needed. The abundance of domain-specific terms also implies that, to train a supervised machine translation (MT) model that could substitute human interpreters, specialized training corpora are needed. In order to overcome these limitations, this work proposes to instead rely on fully unsupervised translation techniques based on cross-lingual embeddings (CLEs). CLEs have appeared in recent years as a way to exploit structural similarities between word embeddings. In combination with other natural language processing (NLP) tools such as language models, they allow for phrase translation, which can be applied to multi-word terms belonging to a controlled vocabulary. In this work, the cross-mapping algorithm VecMap is utilised in combination with a language model to translate the English medical thesaurus Medical Subject Headings (MeSH) into the Spanish language without relying on parallel corpora. The induced vocabulary is then compared against a human translation of MeSH known as Descriptores en Ciencias de la Salud (DeCS) in a multi-label document classification task. Results for this evaluation task show comparable performance between unsupervised MT and human translation. | es_ES |
dc.description.abstract | [ES] El uso de vocabularios controlados se ha convertido en una práctica común en multitud de campos de naturaleza científica o que emplean terminología especializada, con el objetivo de clasificar información almacenada de forma digital y facilitar el acceso a la misma mediante herramientas de búsqueda. Estos vocabularios suelen ser confeccionados por expertos en el ámbito de estudio sobre el que versan, dado que la información que incluyen debe ser precisa. Su contenido es monolingüe en la mayoría de los casos, con lo que no pueden ser utilizados para clasificar documentos en otros idiomas. Traducir vocabularios controlados a otra lengua por medio de traductores profesionales es costoso, dado que estos recursos suelen contener un volumen de datos elevado. Además, la naturaleza específica de su terminología requiere de traductores con cierto dominio en la disciplina científica en cuestión. Esta característica también provoca que, para entrenar un sistema de traducción automática (TA o MT en inglés) que pueda sustituir de forma efectiva a un traductor humano, sea necesario emplear corpus con contenido especializado. Para superar dichas limitaciones, este trabajo propone aplicar técnicas basadas en \textit{cross-lingual embeddings} (CLEs). Los CLEs han surgido durante los últimos años como una forma de aprovechar similaridades estruturales entre \textit{embeddings} de palabras. En combinación con otras herramientas propias del procesamiento del lenguaje natural (PLN o NLP en inglés) como modelos del lenguaje, permiten implementar procedimientos de traducción de oraciones, los cuales pueden ser aplicados para traducir términos multipalabra pertenecientes a vocabularios controlados. En este trabajo, el algoritmo de proyección de \textit{embeddings} VecMap es utilizado en combinación con un modelo del lenguaje para traducir el tesauro médico Medical Subject Headings (MeSH) del inglés al castellano, sin requerir en ningún momento corpus paralelos. El vocabulario traducido es comparado con una traducción profesional del tesauro MeSH, denominada Descriptores en Ciencias de la Salud (DeCS), en una tarea de clasificación multiclase de documentos. Los resultados de este procedimiento de evaluación indican un rendimiento similar entre la traducción automática sin supervisión y la traducción profesional. | es_ES |
dc.description.abstract | [CA] L’ús de vocabularis controlats s’ha convertit en una pràctica comuna en multitud de camps de naturalesa científica o que empren terminologia especialitzada, amb l’objectiu de classificar informació emmagatzemada de manera digital i facilitar l’accés a la mateixa mitjançant eines de cerca. Aquests vocabularis solen ser confeccionats per experts en l’àmbit d’estudi sobre el qual versen, atès que la informació que inclouen ha de ser precisa. El seu contingut és monolingüe en la majoria dels casos, de manera que no poden ser utilitzats per classificar documents en altres idiomes. Traduir vocabularis controlats a una altra llengua per mitjà de traductors professionals és costós, atès que aquests recursos solen contenir un volum de dades elevat. A més, la naturalesa específica de la seva terminologia requereix de traductors amb cert domini en la disciplina científica en qüestió. Aquesta característica també provoca que, per entrenar un sistema de traducció automàtica (TA o MT en anglès) que puga substituir de manera efectiva a un traductor humà, siga necessari emprar corpus amb contingut especialitzat. Per superar aquestes limitacions, aquest treball proposa aplicar tècniques basades en cross-lingual embeddings (CLEs). Els CLEs han sorgit durant els últims anys com una forma d’aprofitar similituds estructurals entre embeddings de paraules. En combinació amb altres eines pròpies del processament del llenguatge natural (PLN o NLP en anglès) com a models de llenguatge, permeten implementar procediments de traducció d’oracions, els quals poden ser aplicats per traduir termes multiparaula pertanyents a vocabularis controlats. En aquest treball, l’algoritme de projecció d’embeddings VecMap és utilitzat en combinació amb un model de llenguatge per a traduir el tesaurus metge Medical Subject Headings (MeSH) de l’anglès al castellà, sense requerir en cap moment corpus paral·lels. El vocabulari traduït és comparat amb una traducció professional del tesaurus MeSH, denominada Descriptors en Ciències de la Salut (DeCS), en una tasca de classificació multiclasse de documents. Els resultats d’aquest procediment d’avaluació indiquen un rendiment similar entre la traducció automàtica sense supervisió i la traducció professional. | es_ES |
dc.format.extent | 64 | es_ES |
dc.language | Inglés | es_ES |
dc.publisher | Universitat Politècnica de València | es_ES |
dc.rights | Reserva de todos los derechos | es_ES |
dc.subject | Vocabulario controlado | es_ES |
dc.subject | Tesauro | es_ES |
dc.subject | MeSH | es_ES |
dc.subject | DeCS | es_ES |
dc.subject | Ciencias de la salud | es_ES |
dc.subject | Cross-lingual embeddings | es_ES |
dc.subject | Términos multipalabra | es_ES |
dc.subject | Traducción de oraciones | es_ES |
dc.subject | Traducción no supervisada | es_ES |
dc.subject | Controlled vocabulary | es_ES |
dc.subject | Thesaurus | es_ES |
dc.subject | Health sciences | es_ES |
dc.subject | Multi-word terms | es_ES |
dc.subject | Phrase translation | es_ES |
dc.subject | Unsupervised translation | es_ES |
dc.subject.classification | LENGUAJES Y SISTEMAS INFORMATICOS | es_ES |
dc.subject.other | Grado en Ingeniería Informática-Grau en Enginyeria Informàtica | es_ES |
dc.title | Unsupervised translation for controlled vocabularies in health sciences | es_ES |
dc.title.alternative | Traducción no supervisada para vocabularios controlados en ciencias de la salud | es_ES |
dc.type | Proyecto/Trabajo fin de carrera/grado | es_ES |
dc.rights.accessRights | Cerrado | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica | es_ES |
dc.description.bibliographicCitation | Quesada Zaragoza, M. (2020). Unsupervised translation for controlled vocabularies in health sciences. http://hdl.handle.net/10251/149380 | es_ES |
dc.description.accrualMethod | TFGM | es_ES |
dc.relation.pasarela | TFGM\129386 | es_ES |