Silvestre Cerdà, JA.; Garcia Martinez, MM.; Barrón Cedeño, LA.; Civera Saiz, J.; Rosso ., P. (2011). Extracción de Corpus Paralelos de la Wikipedia basada en la Obtención de Alineamientos Bilingües a Nivel de Frase. CEUR Workshop Proceedings. 824:14-21. http://hdl.handle.net/10251/27930
Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10251/27930
Título:
|
Extracción de Corpus Paralelos de la Wikipedia basada en la Obtención de Alineamientos Bilingües a Nivel de Frase
|
Otro titulo:
|
Extracting Parallel Corpora from Wikipedia on the basis of Phrase Level Bilingual Alignment
|
Autor:
|
Silvestre Cerdà, Joan Albert
Garcia Martinez, Maria Mercedes
Barrón Cedeño, Luis Alberto
Civera Saiz, Jorge
Rosso ., Paolo
|
Entidad UPV:
|
Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació
|
Fecha difusión:
|
|
Resumen:
|
[EN] This paper presents a proposal for extracting parallel corpora from Wikipedia on the basis of statistical machine translation techniques. We have used
word-level alignment models from IBM in order to obtain phrase-level ...[+]
[EN] This paper presents a proposal for extracting parallel corpora from Wikipedia on the basis of statistical machine translation techniques. We have used
word-level alignment models from IBM in order to obtain phrase-level bilingual
alignments between documents pairs. We have manually annotated a set of test
English-Spanish comparable documents in order to evaluate the model. The obtained results are encouraging.
[-]
[ES] Este art'¿culo presenta una nueva t'ecnica de extracci'on de corpus paralelos de la Wikipedia mediante la aplicaci'on de t'ecnicas de traducci'on autom'atica
estad'¿stica. En concreto, se han utilizado los modelos ...[+]
[ES] Este art'¿culo presenta una nueva t'ecnica de extracci'on de corpus paralelos de la Wikipedia mediante la aplicaci'on de t'ecnicas de traducci'on autom'atica
estad'¿stica. En concreto, se han utilizado los modelos de alineamiento basados en
palabras de IBM para obtener alineamientos biling¿ues a nivel de frase entre pares de
documentos. Para su evaluaci'on se ha generado manualmente un conjunto de test
formado por pares de documentos ingl'es-espa¿nol, obteni'endose resultados prometedores.
[-]
|
Palabras clave:
|
Corpus comparables
,
Extracción de oraciones paralelas
,
Traducción automática estadística
,
Comparable corpora
,
Parallel sentences extraction
,
Statistical machine translation
|
Derechos de uso:
|
Reserva de todos los derechos
|
Fuente:
|
CEUR Workshop Proceedings. (issn:
1613-0073
)
|
Editorial:
|
CEUR Workshop Proceedings
|
Versión del editor:
|
http://ceur-ws.org/Vol-824/paper2.pdf
|
Título del congreso:
|
Iberian Cross-Language Natural Language Processing Tasks (ICL 2011)
|
Lugar del congreso:
|
Huelva, Spain
|
Fecha congreso:
|
September 7, 2011
|
Código del Proyecto:
|
info:eu-repo/grantAgreement/MICINN//TIN2009-13391-C04-03/ES/Text-Enterprise 2.0: Tecnicas De Comprension De Textos Aplicadas A Las Necesidades De La Empresa 2.0/
...[+]
info:eu-repo/grantAgreement/MICINN//TIN2009-13391-C04-03/ES/Text-Enterprise 2.0: Tecnicas De Comprension De Textos Aplicadas A Las Necesidades De La Empresa 2.0/
info:eu-repo/grantAgreement/EC/FP7/269180/EU/Web Information Quality Evaluation Initiative/
info:eu-repo/grantAgreement/CONACyT//192021/
info:eu-repo/grantAgreement/MEC//CSD2007-00018/ES/Multimodal Intraction in Pattern Recognition and Computer Visionm/
info:eu-repo/grantAgreement/MICINN//TIN2009-14511/ES/Traduccion De Textos Y Transcripcion De Voz Interactivas/
info:eu-repo/grantAgreement/MITURCO//TSI-020110-2009-0439/ES/ERUDITO.COM/
info:eu-repo/grantAgreement/Generalitat Valenciana//PROMETEO09%2F2009%2F014/ES/Adaptive learning and multimodality in pattern recognition (Almapater)/
info:eu-repo/grantAgreement/GVA//GV%2F2010%2F067/
info:eu-repo/grantAgreement/UPV//20091027/
[-]
|
Agradecimientos:
|
Este trabajo se ha llevado a cabo en el marco del VLC/CAMPUS Microcluster on Multimodal Interaction in Intelligent Systems, financiado parcialmente por parte de la EC (FEDER/FSE; WIQEI IRSES no. 269180 / FP 7 Marie Curie ...[+]
Este trabajo se ha llevado a cabo en el marco del VLC/CAMPUS Microcluster on Multimodal Interaction in Intelligent Systems, financiado parcialmente por parte de la EC (FEDER/FSE; WIQEI IRSES no. 269180 / FP 7 Marie Curie People), por el MICINN como parte del proyecto Text-Enterprise 2.0 (TIN2009-13391-C04-03) en el Plan I+D+i, y por la beca 192021 del CONACyT. Tambi´en ha recibido apoyo por parte del EC (FEDER/FSE) y del MEC/MICINN bajo el programa MIPRCV “Consolider Ingenio 2010” (CSD2007-00018) y el proyecto iTrans2 (TIN2009-14511), por el MITyC en el marco del proyecto erudito.com (TSI-020110-2009-439), por la Generalitat Valenciana con las ayudas Prometeo/2009/014 y GV/2010/067, y por el “Vicerrectorado de Investigaci´on de la UPV” con la ayuda 20091027.
[-]
|
Tipo:
|
Artículo
Comunicación en congreso
|