- -

Utilisation des CACs et des Ressources Externes pour l Amélioration des Performances de l Étiquetage Morphosyntaxique

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

Utilisation des CACs et des Ressources Externes pour l Amélioration des Performances de l Étiquetage Morphosyntaxique

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.author Outahajala, Mohamed es_ES
dc.contributor.author Benajiba, Yassine es_ES
dc.contributor.author Rosso, Paolo es_ES
dc.date.accessioned 2016-03-10T12:51:31Z
dc.date.available 2016-03-10T12:51:31Z
dc.date.issued 2014
dc.identifier.issn 2028-5663
dc.identifier.uri http://hdl.handle.net/10251/61654
dc.description.abstract [FR] La langue amazighe, comme la plupart des langues de moindre diffusion, souffre encore de la pénurie d'outils et des ressources pour son traitement automatique en particulier les corpus annotés. Ces derniers sont plus difficiles à construire que les corpus bruts qui à leur tour nécessitent des prétraitements dans la majorité des cas. L’objectif de cet article est de présenter une approche basée sur l’apprentissage semisupervisé visant l’utilisation d’un corpus de textes brutes, sélectionnées sur la base de la mesure de confiance des Champs Aléatoires Conditionnels(CACs), conjointement avec un corpus annoté manuellement de 20k morphèmes. Les résultats des expérimentations préliminaires montrent une réduction du taux d’erreur de l’étiqueteur morphosyntaxique de 1,3%. Aussi la réduction du taux d’erreur est de 5,9%, entre 60% et 90% du corpus, lorsque le modèle est entrainé par les phrases du corpus brut annotées automatiquement. es_ES
dc.description.abstract [EN] Amazigh language, and like most of the languages which have only recently started being investigated for the Natural Language Processing (NLP) tasks, lacks annotated corpora and tools and still suffers from the scarcity of linguistic tools and resources and especially annotated corpora. Creating labeled data is a hard task. However, obtaining unlabeled data, although needing most time preprocessing for languages with scarce resources, is less difficult. The aim of this paper is to present a semi-supervised based approach using labeled and unlabeled data. Preliminary results show an error reduction of 1,3%, when training our POS tagger with Conditional Random Fields(CRFs), with chosen automatically annotated texts and a small manually annotated corpus of about 20k tokens. Also, when trained with automatically annotated data, the achieved improvement between 60% and 90% of the trained data is 5.9%. es_ES
dc.description.sponsorship Le premier auteur exprime sa gratitude à la CODESRIA. Les travaux du quatrième auteur ont été financés dans le cadre des projets de recherche: VLC/CAMPUS Microcluster on Multimodal Interaction in Intelligent Systems, la commission européenne WIQ-EI IRSES (no. 269180) et DIANAAPPLICATIONS(TIN2012-38603-C02-01).
dc.language Francés es_ES
dc.publisher Institut Royal de la Culture Amazighe es_ES
dc.relation.ispartof Asinag es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Étiquetage morphosyntaxique es_ES
dc.subject Langue amazighe es_ES
dc.subject NLP es_ES
dc.subject Apprentissage semi-supervisé es_ES
dc.subject POS tagging es_ES
dc.subject Amazigh language es_ES
dc.subject TAL es_ES
dc.subject Semi-supervised learning es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.title Utilisation des CACs et des Ressources Externes pour l Amélioration des Performances de l Étiquetage Morphosyntaxique es_ES
dc.type Artículo es_ES
dc.relation.projectID info:eu-repo/grantAgreement/MINECO//TIN2012-38603-C02-01/ES/DIANA-APPLICATIONS: FINDING HIDDEN KNOWLEDGE IN TEXTS: APPLICATIONS/ es_ES
dc.relation.projectID info:eu-repo/grantAgreement/EC/FP7/269180/EU/Web Information Quality Evaluation Initiative/
dc.rights.accessRights Cerrado es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.description.bibliographicCitation Outahajala, M.; Benajiba, Y.; Rosso, P. (2014). Utilisation des CACs et des Ressources Externes pour l Amélioration des Performances de l Étiquetage Morphosyntaxique. Asinag. (9):91-104. http://hdl.handle.net/10251/61654 es_ES
dc.description.accrualMethod S es_ES
dc.relation.publisherversion http://www.ircam.ma/fr/index.php?soc=revueasinag&rd=170 es_ES
dc.description.upvformatpinicio 91 es_ES
dc.description.upvformatpfin 104 es_ES
dc.type.version info:eu-repo/semantics/publishedVersion es_ES
dc.description.issue 9 es_ES
dc.relation.senia 263691 es_ES
dc.contributor.funder Council for the Development of Social Science Research in Africa es_ES
dc.contributor.funder European Commission
dc.contributor.funder Ministerio de Economía y Competitividad es_ES


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem