Extracción de Corpus Paralelos de la Wikipedia basada en la Obtención de Alineamientos Bilingües a Nivel de Frase

Silvestre Cerdà, Joan Albert; Garcia Martinez, Maria Mercedes; Barrón Cedeño, Luis Alberto; Civera Saiz, Jorge; Rosso ., Paolo

Identificarse

Buscar en RiuNet

Listar

Todo RiuNet
Esta colección

Mi cuenta

Acceder

Estadísticas

Ver Estadísticas de uso

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Extracción de Corpus Paralelos de la Wikipedia basada en la Obtención de Alineamientos Bilingües a Nivel de Frase

Mostrar el registro sencillo del ítem

Ficheros en el ítem

Nombre: art-CEUR-824-pape ...

Tamaño: 563.6Kb

Formato: PDF

Abrir

dc.contributor.author	Silvestre Cerdà, Joan Albert	es_ES
dc.contributor.author	Garcia Martinez, Maria Mercedes	es_ES
dc.contributor.author	Barrón Cedeño, Luis Alberto	es_ES
dc.contributor.author	Civera Saiz, Jorge	es_ES
dc.contributor.author	Rosso ., Paolo	es_ES
dc.date.accessioned	2013-04-16T12:12:36Z
dc.date.available	2013-04-16T12:12:36Z
dc.date.issued	2011
dc.identifier.issn	1613-0073
dc.identifier.uri	http://hdl.handle.net/10251/27930
dc.description.abstract	[EN] This paper presents a proposal for extracting parallel corpora from Wikipedia on the basis of statistical machine translation techniques. We have used word-level alignment models from IBM in order to obtain phrase-level bilingual alignments between documents pairs. We have manually annotated a set of test English-Spanish comparable documents in order to evaluate the model. The obtained results are encouraging.	es_ES
dc.description.abstract	[ES] Este art'¿culo presenta una nueva t'ecnica de extracci'on de corpus paralelos de la Wikipedia mediante la aplicaci'on de t'ecnicas de traducci'on autom'atica estad'¿stica. En concreto, se han utilizado los modelos de alineamiento basados en palabras de IBM para obtener alineamientos biling¿ues a nivel de frase entre pares de documentos. Para su evaluaci'on se ha generado manualmente un conjunto de test formado por pares de documentos ingl'es-espa¿nol, obteni'endose resultados prometedores.	es_ES
dc.description.sponsorship	Este trabajo se ha llevado a cabo en el marco del VLC/CAMPUS Microcluster on Multimodal Interaction in Intelligent Systems, financiado parcialmente por parte de la EC (FEDER/FSE; WIQEI IRSES no. 269180 / FP 7 Marie Curie People), por el MICINN como parte del proyecto Text-Enterprise 2.0 (TIN2009-13391-C04-03) en el Plan I+D+i, y por la beca 192021 del CONACyT. Tambi´en ha recibido apoyo por parte del EC (FEDER/FSE) y del MEC/MICINN bajo el programa MIPRCV “Consolider Ingenio 2010” (CSD2007-00018) y el proyecto iTrans2 (TIN2009-14511), por el MITyC en el marco del proyecto erudito.com (TSI-020110-2009-439), por la Generalitat Valenciana con las ayudas Prometeo/2009/014 y GV/2010/067, y por el “Vicerrectorado de Investigaci´on de la UPV” con la ayuda 20091027.
dc.language	Español	es_ES
dc.publisher	CEUR Workshop Proceedings	es_ES
dc.relation.ispartof	CEUR Workshop Proceedings	es_ES
dc.rights	Reserva de todos los derechos	es_ES
dc.subject	Corpus comparables	es_ES
dc.subject	Extracción de oraciones paralelas	es_ES
dc.subject	Traducción automática estadística	es_ES
dc.subject	Comparable corpora	es_ES
dc.subject	Parallel sentences extraction	es_ES
dc.subject	Statistical machine translation	es_ES
dc.subject.classification	LENGUAJES Y SISTEMAS INFORMATICOS	es_ES
dc.title	Extracción de Corpus Paralelos de la Wikipedia basada en la Obtención de Alineamientos Bilingües a Nivel de Frase	es_ES
dc.title.alternative	Extracting Parallel Corpora from Wikipedia on the basis of Phrase Level Bilingual Alignment
dc.type	Artículo	es_ES
dc.type	Comunicación en congreso
dc.relation.projectID	info:eu-repo/grantAgreement/MICINN//TIN2009-13391-C04-03/ES/Text-Enterprise 2.0: Tecnicas De Comprension De Textos Aplicadas A Las Necesidades De La Empresa 2.0/	es_ES
dc.relation.projectID	info:eu-repo/grantAgreement/EC/FP7/269180/EU/Web Information Quality Evaluation Initiative/
dc.relation.projectID	info:eu-repo/grantAgreement/CONACyT//192021/	es_ES
dc.relation.projectID	info:eu-repo/grantAgreement/MEC//CSD2007-00018/ES/Multimodal Intraction in Pattern Recognition and Computer Visionm/
dc.relation.projectID	info:eu-repo/grantAgreement/MICINN//TIN2009-14511/ES/Traduccion De Textos Y Transcripcion De Voz Interactivas/
dc.relation.projectID	info:eu-repo/grantAgreement/MITURCO//TSI-020110-2009-0439/ES/ERUDITO.COM/
dc.relation.projectID	info:eu-repo/grantAgreement/Generalitat Valenciana//PROMETEO09%2F2009%2F014/ES/Adaptive learning and multimodality in pattern recognition (Almapater)/
dc.relation.projectID	info:eu-repo/grantAgreement/GVA//GV%2F2010%2F067/
dc.relation.projectID	info:eu-repo/grantAgreement/UPV//20091027/
dc.rights.accessRights	Abierto	es_ES
dc.contributor.affiliation	Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació	es_ES
dc.description.bibliographicCitation	Silvestre Cerdà, JA.; Garcia Martinez, MM.; Barrón Cedeño, LA.; Civera Saiz, J.; Rosso ., P. (2011). Extracción de Corpus Paralelos de la Wikipedia basada en la Obtención de Alineamientos Bilingües a Nivel de Frase. CEUR Workshop Proceedings. 824:14-21. http://hdl.handle.net/10251/27930	es_ES
dc.description.accrualMethod	S	es_ES
dc.relation.conferencename	Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)
dc.relation.conferencedate	September 7, 2011
dc.relation.conferenceplace	Huelva, Spain
dc.relation.publisherversion	http://ceur-ws.org/Vol-824/paper2.pdf	es_ES
dc.description.upvformatpinicio	14	es_ES
dc.description.upvformatpfin	21	es_ES
dc.type.version	info:eu-repo/semantics/publishedVersion	es_ES
dc.description.volume	824	es_ES
dc.relation.senia	217525
dc.contributor.funder	European Commission
dc.contributor.funder	Ministerio de Ciencia e Innovación
dc.contributor.funder	Ministerio de Industria, Turismo y Comercio
dc.contributor.funder	Generalitat Valenciana
dc.contributor.funder	Universitat Politècnica de València
dc.contributor.funder	Consejo Nacional de Ciencia y Tecnología, México
dc.contributor.funder	Ministerio de Educación y Ciencia	es_ES

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Extracción de Corpus Paralelos de la Wikipedia basada en la Obtención de Alineamientos Bilingües a Nivel de Frase

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Buscar en RiuNet

Listar

Todo RiuNet

Esta colección

Mi cuenta

Estadísticas

Ayuda RiuNet

Admin. UPV

Compartir/Enviar a

Citas

Estadísticas

Extracción de Corpus Paralelos de la Wikipedia basada en la Obtención de Alineamientos Bilingües a Nivel de Frase

Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)