- -

Extracción de Corpus Paralelos de la Wikipedia basada en la Obtención de Alineamientos Bilingües a Nivel de Frase

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Extracción de Corpus Paralelos de la Wikipedia basada en la Obtención de Alineamientos Bilingües a Nivel de Frase

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.author Silvestre Cerdà, Joan Albert es_ES
dc.contributor.author Garcia Martinez, Maria Mercedes es_ES
dc.contributor.author Barrón Cedeño, Luis Alberto es_ES
dc.contributor.author Civera Saiz, Jorge es_ES
dc.contributor.author Rosso ., Paolo es_ES
dc.date.accessioned 2013-04-16T12:12:36Z
dc.date.available 2013-04-16T12:12:36Z
dc.date.issued 2011
dc.identifier.issn 1613-0073
dc.identifier.uri http://hdl.handle.net/10251/27930
dc.description.abstract [EN] This paper presents a proposal for extracting parallel corpora from Wikipedia on the basis of statistical machine translation techniques. We have used word-level alignment models from IBM in order to obtain phrase-level bilingual alignments between documents pairs. We have manually annotated a set of test English-Spanish comparable documents in order to evaluate the model. The obtained results are encouraging. es_ES
dc.description.abstract [ES] Este art'¿culo presenta una nueva t'ecnica de extracci'on de corpus paralelos de la Wikipedia mediante la aplicaci'on de t'ecnicas de traducci'on autom'atica estad'¿stica. En concreto, se han utilizado los modelos de alineamiento basados en palabras de IBM para obtener alineamientos biling¿ues a nivel de frase entre pares de documentos. Para su evaluaci'on se ha generado manualmente un conjunto de test formado por pares de documentos ingl'es-espa¿nol, obteni'endose resultados prometedores. es_ES
dc.description.sponsorship Este trabajo se ha llevado a cabo en el marco del VLC/CAMPUS Microcluster on Multimodal Interaction in Intelligent Systems, financiado parcialmente por parte de la EC (FEDER/FSE; WIQEI IRSES no. 269180 / FP 7 Marie Curie People), por el MICINN como parte del proyecto Text-Enterprise 2.0 (TIN2009-13391-C04-03) en el Plan I+D+i, y por la beca 192021 del CONACyT. Tambi´en ha recibido apoyo por parte del EC (FEDER/FSE) y del MEC/MICINN bajo el programa MIPRCV “Consolider Ingenio 2010” (CSD2007-00018) y el proyecto iTrans2 (TIN2009-14511), por el MITyC en el marco del proyecto erudito.com (TSI-020110-2009-439), por la Generalitat Valenciana con las ayudas Prometeo/2009/014 y GV/2010/067, y por el “Vicerrectorado de Investigaci´on de la UPV” con la ayuda 20091027.
dc.language Español es_ES
dc.publisher CEUR Workshop Proceedings es_ES
dc.relation.ispartof CEUR Workshop Proceedings es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Corpus comparables es_ES
dc.subject Extracción de oraciones paralelas es_ES
dc.subject Traducción automática estadística es_ES
dc.subject Comparable corpora es_ES
dc.subject Parallel sentences extraction es_ES
dc.subject Statistical machine translation es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.title Extracción de Corpus Paralelos de la Wikipedia basada en la Obtención de Alineamientos Bilingües a Nivel de Frase es_ES
dc.title.alternative Extracting Parallel Corpora from Wikipedia on the basis of Phrase Level Bilingual Alignment
dc.type Artículo es_ES
dc.type Comunicación en congreso
dc.relation.projectID info:eu-repo/grantAgreement/MICINN//TIN2009-13391-C04-03/ES/Text-Enterprise 2.0: Tecnicas De Comprension De Textos Aplicadas A Las Necesidades De La Empresa 2.0/ es_ES
dc.relation.projectID info:eu-repo/grantAgreement/EC/FP7/269180/EU/Web Information Quality Evaluation Initiative/
dc.relation.projectID info:eu-repo/grantAgreement/CONACyT//192021/ es_ES
dc.relation.projectID info:eu-repo/grantAgreement/MEC//CSD2007-00018/ES/Multimodal Intraction in Pattern Recognition and Computer Visionm/
dc.relation.projectID info:eu-repo/grantAgreement/MICINN//TIN2009-14511/ES/Traduccion De Textos Y Transcripcion De Voz Interactivas/
dc.relation.projectID info:eu-repo/grantAgreement/MITURCO//TSI-020110-2009-0439/ES/ERUDITO.COM/
dc.relation.projectID info:eu-repo/grantAgreement/Generalitat Valenciana//PROMETEO09%2F2009%2F014/ES/Adaptive learning and multimodality in pattern recognition (Almapater)/
dc.relation.projectID info:eu-repo/grantAgreement/GVA//GV%2F2010%2F067/
dc.relation.projectID info:eu-repo/grantAgreement/UPV//20091027/
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.description.bibliographicCitation Silvestre Cerdà, JA.; Garcia Martinez, MM.; Barrón Cedeño, LA.; Civera Saiz, J.; Rosso ., P. (2011). Extracción de Corpus Paralelos de la Wikipedia basada en la Obtención de Alineamientos Bilingües a Nivel de Frase. CEUR Workshop Proceedings. 824:14-21. http://hdl.handle.net/10251/27930 es_ES
dc.description.accrualMethod S es_ES
dc.relation.conferencename Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)
dc.relation.conferencedate September 7, 2011
dc.relation.conferenceplace Huelva, Spain
dc.relation.publisherversion http://ceur-ws.org/Vol-824/paper2.pdf es_ES
dc.description.upvformatpinicio 14 es_ES
dc.description.upvformatpfin 21 es_ES
dc.type.version info:eu-repo/semantics/publishedVersion es_ES
dc.description.volume 824 es_ES
dc.relation.senia 217525
dc.contributor.funder European Commission
dc.contributor.funder Ministerio de Ciencia e Innovación
dc.contributor.funder Ministerio de Industria, Turismo y Comercio
dc.contributor.funder Generalitat Valenciana
dc.contributor.funder Universitat Politècnica de València
dc.contributor.funder Consejo Nacional de Ciencia y Tecnología, México
dc.contributor.funder Ministerio de Educación y Ciencia es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem