Mostrar el registro sencillo del ítem
dc.contributor.author | Silvestre Cerdà, Joan Albert | es_ES |
dc.contributor.author | Garcia Martinez, Maria Mercedes | es_ES |
dc.contributor.author | Barrón Cedeño, Luis Alberto | es_ES |
dc.contributor.author | Civera Saiz, Jorge | es_ES |
dc.contributor.author | Rosso ., Paolo | es_ES |
dc.date.accessioned | 2013-04-16T12:12:36Z | |
dc.date.available | 2013-04-16T12:12:36Z | |
dc.date.issued | 2011 | |
dc.identifier.issn | 1613-0073 | |
dc.identifier.uri | http://hdl.handle.net/10251/27930 | |
dc.description.abstract | [EN] This paper presents a proposal for extracting parallel corpora from Wikipedia on the basis of statistical machine translation techniques. We have used word-level alignment models from IBM in order to obtain phrase-level bilingual alignments between documents pairs. We have manually annotated a set of test English-Spanish comparable documents in order to evaluate the model. The obtained results are encouraging. | es_ES |
dc.description.abstract | [ES] Este art'¿culo presenta una nueva t'ecnica de extracci'on de corpus paralelos de la Wikipedia mediante la aplicaci'on de t'ecnicas de traducci'on autom'atica estad'¿stica. En concreto, se han utilizado los modelos de alineamiento basados en palabras de IBM para obtener alineamientos biling¿ues a nivel de frase entre pares de documentos. Para su evaluaci'on se ha generado manualmente un conjunto de test formado por pares de documentos ingl'es-espa¿nol, obteni'endose resultados prometedores. | es_ES |
dc.description.sponsorship | Este trabajo se ha llevado a cabo en el marco del VLC/CAMPUS Microcluster on Multimodal Interaction in Intelligent Systems, financiado parcialmente por parte de la EC (FEDER/FSE; WIQEI IRSES no. 269180 / FP 7 Marie Curie People), por el MICINN como parte del proyecto Text-Enterprise 2.0 (TIN2009-13391-C04-03) en el Plan I+D+i, y por la beca 192021 del CONACyT. Tambi´en ha recibido apoyo por parte del EC (FEDER/FSE) y del MEC/MICINN bajo el programa MIPRCV “Consolider Ingenio 2010” (CSD2007-00018) y el proyecto iTrans2 (TIN2009-14511), por el MITyC en el marco del proyecto erudito.com (TSI-020110-2009-439), por la Generalitat Valenciana con las ayudas Prometeo/2009/014 y GV/2010/067, y por el “Vicerrectorado de Investigaci´on de la UPV” con la ayuda 20091027. | |
dc.language | Español | es_ES |
dc.publisher | CEUR Workshop Proceedings | es_ES |
dc.relation.ispartof | CEUR Workshop Proceedings | es_ES |
dc.rights | Reserva de todos los derechos | es_ES |
dc.subject | Corpus comparables | es_ES |
dc.subject | Extracción de oraciones paralelas | es_ES |
dc.subject | Traducción automática estadística | es_ES |
dc.subject | Comparable corpora | es_ES |
dc.subject | Parallel sentences extraction | es_ES |
dc.subject | Statistical machine translation | es_ES |
dc.subject.classification | LENGUAJES Y SISTEMAS INFORMATICOS | es_ES |
dc.title | Extracción de Corpus Paralelos de la Wikipedia basada en la Obtención de Alineamientos Bilingües a Nivel de Frase | es_ES |
dc.title.alternative | Extracting Parallel Corpora from Wikipedia on the basis of Phrase Level Bilingual Alignment | |
dc.type | Artículo | es_ES |
dc.type | Comunicación en congreso | |
dc.relation.projectID | info:eu-repo/grantAgreement/MICINN//TIN2009-13391-C04-03/ES/Text-Enterprise 2.0: Tecnicas De Comprension De Textos Aplicadas A Las Necesidades De La Empresa 2.0/ | es_ES |
dc.relation.projectID | info:eu-repo/grantAgreement/EC/FP7/269180/EU/Web Information Quality Evaluation Initiative/ | |
dc.relation.projectID | info:eu-repo/grantAgreement/CONACyT//192021/ | es_ES |
dc.relation.projectID | info:eu-repo/grantAgreement/MEC//CSD2007-00018/ES/Multimodal Intraction in Pattern Recognition and Computer Visionm/ | |
dc.relation.projectID | info:eu-repo/grantAgreement/MICINN//TIN2009-14511/ES/Traduccion De Textos Y Transcripcion De Voz Interactivas/ | |
dc.relation.projectID | info:eu-repo/grantAgreement/MITURCO//TSI-020110-2009-0439/ES/ERUDITO.COM/ | |
dc.relation.projectID | info:eu-repo/grantAgreement/Generalitat Valenciana//PROMETEO09%2F2009%2F014/ES/Adaptive learning and multimodality in pattern recognition (Almapater)/ | |
dc.relation.projectID | info:eu-repo/grantAgreement/GVA//GV%2F2010%2F067/ | |
dc.relation.projectID | info:eu-repo/grantAgreement/UPV//20091027/ | |
dc.rights.accessRights | Abierto | es_ES |
dc.contributor.affiliation | Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació | es_ES |
dc.description.bibliographicCitation | Silvestre Cerdà, JA.; Garcia Martinez, MM.; Barrón Cedeño, LA.; Civera Saiz, J.; Rosso ., P. (2011). Extracción de Corpus Paralelos de la Wikipedia basada en la Obtención de Alineamientos Bilingües a Nivel de Frase. CEUR Workshop Proceedings. 824:14-21. http://hdl.handle.net/10251/27930 | es_ES |
dc.description.accrualMethod | S | es_ES |
dc.relation.conferencename | Iberian Cross-Language Natural Language Processing Tasks (ICL 2011) | |
dc.relation.conferencedate | September 7, 2011 | |
dc.relation.conferenceplace | Huelva, Spain | |
dc.relation.publisherversion | http://ceur-ws.org/Vol-824/paper2.pdf | es_ES |
dc.description.upvformatpinicio | 14 | es_ES |
dc.description.upvformatpfin | 21 | es_ES |
dc.type.version | info:eu-repo/semantics/publishedVersion | es_ES |
dc.description.volume | 824 | es_ES |
dc.relation.senia | 217525 | |
dc.contributor.funder | European Commission | |
dc.contributor.funder | Ministerio de Ciencia e Innovación | |
dc.contributor.funder | Ministerio de Industria, Turismo y Comercio | |
dc.contributor.funder | Generalitat Valenciana | |
dc.contributor.funder | Universitat Politècnica de València | |
dc.contributor.funder | Consejo Nacional de Ciencia y Tecnología, México | |
dc.contributor.funder | Ministerio de Educación y Ciencia | es_ES |