Resumen:
|
[EN] The use of controlled vocabularies has become widespread in many scientific and otherwise specialized fields in order to classify and facilitate the search of domain-specific information that is stored digitally. These ...[+]
[EN] The use of controlled vocabularies has become widespread in many scientific and otherwise specialized fields in order to classify and facilitate the search of domain-specific information that is stored digitally. These resources have to be built by experts in the field, as they condense preexisting knowledge. Their content is usually monolingual, which means that they cannot be used to classify documents in other languages. Inducing these controlled vocabularies into another language using human translation is costly, given that they contain large amounts of data. Furthermore, the terminology present in them is heavily specialised, which means that translators with expertise in the scientific discipline at hand are needed. The abundance of domain-specific terms also implies that, to train a supervised machine translation (MT) model that could substitute human interpreters, specialized training corpora are needed. In order to overcome these limitations, this work proposes to instead rely on fully unsupervised translation techniques based on cross-lingual embeddings (CLEs). CLEs have appeared in recent years as a way to exploit structural similarities between word embeddings. In combination with other natural language processing (NLP) tools such as language models, they allow for phrase translation, which can be applied to multi-word terms belonging to a controlled vocabulary. In this work, the cross-mapping algorithm VecMap is utilised in combination with a language model to translate the English medical thesaurus Medical Subject Headings (MeSH) into the Spanish language without relying on parallel corpora. The induced vocabulary is then compared against a human translation of MeSH known as Descriptores en Ciencias de la Salud (DeCS) in a multi-label document classification task. Results for this evaluation task show comparable performance between unsupervised MT and human translation.
[-]
[ES] El uso de vocabularios controlados se ha convertido en una práctica común en multitud de campos de naturaleza científica o que emplean terminología especializada, con el objetivo de clasificar información almacenada ...[+]
[ES] El uso de vocabularios controlados se ha convertido en una práctica común en multitud de campos de naturaleza científica o que emplean terminología especializada, con el objetivo de clasificar información almacenada de forma digital y facilitar el acceso a la misma mediante herramientas de búsqueda. Estos vocabularios suelen ser confeccionados por expertos en el ámbito de estudio sobre el que versan, dado que la información que incluyen debe ser precisa. Su contenido es monolingüe en la mayoría de los casos, con lo que no pueden ser utilizados para clasificar documentos en otros idiomas. Traducir vocabularios controlados a otra lengua por medio de traductores profesionales es costoso, dado que estos recursos suelen contener un volumen de datos elevado. Además, la naturaleza específica de su terminología requiere de traductores con cierto dominio en la disciplina científica en cuestión. Esta característica también provoca que, para entrenar un sistema de traducción automática (TA o MT en inglés) que pueda sustituir de forma efectiva a un traductor humano, sea necesario emplear corpus con contenido especializado. Para superar dichas limitaciones, este trabajo propone aplicar técnicas basadas en \textit{cross-lingual embeddings} (CLEs). Los CLEs han surgido durante los últimos años como una forma de aprovechar similaridades estruturales entre \textit{embeddings} de palabras. En combinación con otras herramientas propias del procesamiento del lenguaje natural (PLN o NLP en inglés) como modelos del lenguaje, permiten implementar procedimientos de traducción de oraciones, los cuales pueden ser aplicados para traducir términos multipalabra pertenecientes a vocabularios controlados. En este trabajo, el algoritmo de proyección de \textit{embeddings} VecMap es utilizado en combinación con un modelo del lenguaje para traducir el tesauro médico Medical Subject Headings (MeSH) del inglés al castellano, sin requerir en ningún momento corpus paralelos. El vocabulario traducido es comparado con una traducción profesional del tesauro MeSH, denominada Descriptores en Ciencias de la Salud (DeCS), en una tarea de clasificación multiclase de documentos. Los resultados de este procedimiento de evaluación indican un rendimiento similar entre la traducción automática sin supervisión y la traducción profesional.
[-]
[CA] L’ús de vocabularis controlats s’ha convertit en una pràctica comuna en multitud de
camps de naturalesa científica o que empren terminologia especialitzada, amb l’objectiu
de classificar informació emmagatzemada de ...[+]
[CA] L’ús de vocabularis controlats s’ha convertit en una pràctica comuna en multitud de
camps de naturalesa científica o que empren terminologia especialitzada, amb l’objectiu
de classificar informació emmagatzemada de manera digital i facilitar l’accés a la mateixa mitjançant eines de cerca. Aquests vocabularis solen ser confeccionats per experts en
l’àmbit d’estudi sobre el qual versen, atès que la informació que inclouen ha de ser precisa. El seu contingut és monolingüe en la majoria dels casos, de manera que no poden
ser utilitzats per classificar documents en altres idiomes. Traduir vocabularis controlats
a una altra llengua per mitjà de traductors professionals és costós, atès que aquests recursos solen contenir un volum de dades elevat. A més, la naturalesa específica de la
seva terminologia requereix de traductors amb cert domini en la disciplina científica en
qüestió. Aquesta característica també provoca que, per entrenar un sistema de traducció
automàtica (TA o MT en anglès) que puga substituir de manera efectiva a un traductor
humà, siga necessari emprar corpus amb contingut especialitzat. Per superar aquestes
limitacions, aquest treball proposa aplicar tècniques basades en cross-lingual embeddings
(CLEs). Els CLEs han sorgit durant els últims anys com una forma d’aprofitar similituds estructurals entre embeddings de paraules. En combinació amb altres eines pròpies
del processament del llenguatge natural (PLN o NLP en anglès) com a models de llenguatge, permeten implementar procediments de traducció d’oracions, els quals poden
ser aplicats per traduir termes multiparaula pertanyents a vocabularis controlats. En
aquest treball, l’algoritme de projecció d’embeddings VecMap és utilitzat en combinació
amb un model de llenguatge per a traduir el tesaurus metge Medical Subject Headings
(MeSH) de l’anglès al castellà, sense requerir en cap moment corpus paral·lels. El vocabulari traduït és comparat amb una traducció professional del tesaurus MeSH, denominada
Descriptors en Ciències de la Salut (DeCS), en una tasca de classificació multiclasse de documents. Els resultats d’aquest procediment d’avaluació indiquen un rendiment similar
entre la traducció automàtica sense supervisió i la traducció professional.
[-]
|