- -

Unsupervised translation for controlled vocabularies in health sciences

RiuNet: Institutional repository of the Polithecnic University of Valencia

Share/Send to

Cited by

Statistics

  • Estadisticas de Uso

Unsupervised translation for controlled vocabularies in health sciences

Show simple item record

Files in this item

dc.contributor.advisor Hurtado Oliver, Lluis Felip es_ES
dc.contributor.advisor Segarra Soriano, Encarnación es_ES
dc.contributor.author Quesada Zaragoza, Martín es_ES
dc.date.accessioned 2020-09-03T08:42:53Z
dc.date.available 2020-09-03T08:42:53Z
dc.date.created 2020-07-14
dc.date.issued 2020-09-03 es_ES
dc.identifier.uri http://hdl.handle.net/10251/149380
dc.description.abstract [EN] The use of controlled vocabularies has become widespread in many scientific and otherwise specialized fields in order to classify and facilitate the search of domain-specific information that is stored digitally. These resources have to be built by experts in the field, as they condense preexisting knowledge. Their content is usually monolingual, which means that they cannot be used to classify documents in other languages. Inducing these controlled vocabularies into another language using human translation is costly, given that they contain large amounts of data. Furthermore, the terminology present in them is heavily specialised, which means that translators with expertise in the scientific discipline at hand are needed. The abundance of domain-specific terms also implies that, to train a supervised machine translation (MT) model that could substitute human interpreters, specialized training corpora are needed. In order to overcome these limitations, this work proposes to instead rely on fully unsupervised translation techniques based on cross-lingual embeddings (CLEs). CLEs have appeared in recent years as a way to exploit structural similarities between word embeddings. In combination with other natural language processing (NLP) tools such as language models, they allow for phrase translation, which can be applied to multi-word terms belonging to a controlled vocabulary. In this work, the cross-mapping algorithm VecMap is utilised in combination with a language model to translate the English medical thesaurus Medical Subject Headings (MeSH) into the Spanish language without relying on parallel corpora. The induced vocabulary is then compared against a human translation of MeSH known as Descriptores en Ciencias de la Salud (DeCS) in a multi-label document classification task. Results for this evaluation task show comparable performance between unsupervised MT and human translation. es_ES
dc.description.abstract [ES] El uso de vocabularios controlados se ha convertido en una práctica común en multitud de campos de naturaleza científica o que emplean terminología especializada, con el objetivo de clasificar información almacenada de forma digital y facilitar el acceso a la misma mediante herramientas de búsqueda. Estos vocabularios suelen ser confeccionados por expertos en el ámbito de estudio sobre el que versan, dado que la información que incluyen debe ser precisa. Su contenido es monolingüe en la mayoría de los casos, con lo que no pueden ser utilizados para clasificar documentos en otros idiomas. Traducir vocabularios controlados a otra lengua por medio de traductores profesionales es costoso, dado que estos recursos suelen contener un volumen de datos elevado. Además, la naturaleza específica de su terminología requiere de traductores con cierto dominio en la disciplina científica en cuestión. Esta característica también provoca que, para entrenar un sistema de traducción automática (TA o MT en inglés) que pueda sustituir de forma efectiva a un traductor humano, sea necesario emplear corpus con contenido especializado. Para superar dichas limitaciones, este trabajo propone aplicar técnicas basadas en \textit{cross-lingual embeddings} (CLEs). Los CLEs han surgido durante los últimos años como una forma de aprovechar similaridades estruturales entre \textit{embeddings} de palabras. En combinación con otras herramientas propias del procesamiento del lenguaje natural (PLN o NLP en inglés) como modelos del lenguaje, permiten implementar procedimientos de traducción de oraciones, los cuales pueden ser aplicados para traducir términos multipalabra pertenecientes a vocabularios controlados. En este trabajo, el algoritmo de proyección de \textit{embeddings} VecMap es utilizado en combinación con un modelo del lenguaje para traducir el tesauro médico Medical Subject Headings (MeSH) del inglés al castellano, sin requerir en ningún momento corpus paralelos. El vocabulario traducido es comparado con una traducción profesional del tesauro MeSH, denominada Descriptores en Ciencias de la Salud (DeCS), en una tarea de clasificación multiclase de documentos. Los resultados de este procedimiento de evaluación indican un rendimiento similar entre la traducción automática sin supervisión y la traducción profesional. es_ES
dc.description.abstract [CA] L’ús de vocabularis controlats s’ha convertit en una pràctica comuna en multitud de camps de naturalesa científica o que empren terminologia especialitzada, amb l’objectiu de classificar informació emmagatzemada de manera digital i facilitar l’accés a la mateixa mitjançant eines de cerca. Aquests vocabularis solen ser confeccionats per experts en l’àmbit d’estudi sobre el qual versen, atès que la informació que inclouen ha de ser precisa. El seu contingut és monolingüe en la majoria dels casos, de manera que no poden ser utilitzats per classificar documents en altres idiomes. Traduir vocabularis controlats a una altra llengua per mitjà de traductors professionals és costós, atès que aquests recursos solen contenir un volum de dades elevat. A més, la naturalesa específica de la seva terminologia requereix de traductors amb cert domini en la disciplina científica en qüestió. Aquesta característica també provoca que, per entrenar un sistema de traducció automàtica (TA o MT en anglès) que puga substituir de manera efectiva a un traductor humà, siga necessari emprar corpus amb contingut especialitzat. Per superar aquestes limitacions, aquest treball proposa aplicar tècniques basades en cross-lingual embeddings (CLEs). Els CLEs han sorgit durant els últims anys com una forma d’aprofitar similituds estructurals entre embeddings de paraules. En combinació amb altres eines pròpies del processament del llenguatge natural (PLN o NLP en anglès) com a models de llenguatge, permeten implementar procediments de traducció d’oracions, els quals poden ser aplicats per traduir termes multiparaula pertanyents a vocabularis controlats. En aquest treball, l’algoritme de projecció d’embeddings VecMap és utilitzat en combinació amb un model de llenguatge per a traduir el tesaurus metge Medical Subject Headings (MeSH) de l’anglès al castellà, sense requerir en cap moment corpus paral·lels. El vocabulari traduït és comparat amb una traducció professional del tesaurus MeSH, denominada Descriptors en Ciències de la Salut (DeCS), en una tasca de classificació multiclasse de documents. Els resultats d’aquest procediment d’avaluació indiquen un rendiment similar entre la traducció automàtica sense supervisió i la traducció professional. es_ES
dc.format.extent 64 es_ES
dc.language Inglés es_ES
dc.publisher Universitat Politècnica de València es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Vocabulario controlado es_ES
dc.subject Tesauro es_ES
dc.subject MeSH es_ES
dc.subject DeCS es_ES
dc.subject Ciencias de la salud es_ES
dc.subject Cross-lingual embeddings es_ES
dc.subject Términos multipalabra es_ES
dc.subject Traducción de oraciones es_ES
dc.subject Traducción no supervisada es_ES
dc.subject Controlled vocabulary es_ES
dc.subject Thesaurus es_ES
dc.subject Health sciences es_ES
dc.subject Multi-word terms es_ES
dc.subject Phrase translation es_ES
dc.subject Unsupervised translation es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.subject.other Grado en Ingeniería Informática-Grau en Enginyeria Informàtica es_ES
dc.title Unsupervised translation for controlled vocabularies in health sciences es_ES
dc.title.alternative Traducción no supervisada para vocabularios controlados en ciencias de la salud es_ES
dc.type Proyecto/Trabajo fin de carrera/grado es_ES
dc.rights.accessRights Cerrado es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.contributor.affiliation Universitat Politècnica de València. Escola Tècnica Superior d'Enginyeria Informàtica es_ES
dc.description.bibliographicCitation Quesada Zaragoza, M. (2020). Unsupervised translation for controlled vocabularies in health sciences. http://hdl.handle.net/10251/149380 es_ES
dc.description.accrualMethod TFGM es_ES
dc.relation.pasarela TFGM\129386 es_ES


This item appears in the following Collection(s)

Show simple item record