- -

L'étiquetage grammatical de l'amazighe en utilisant les propriétés n-grammes et un prétraitement de segmentation

RiuNet: Repositorio Institucional de la Universidad Politécnica de Valencia

Compartir/Enviar a

Citas

Estadísticas

  • Estadisticas de Uso

L'étiquetage grammatical de l'amazighe en utilisant les propriétés n-grammes et un prétraitement de segmentation

Mostrar el registro sencillo del ítem

Ficheros en el ítem

dc.contributor.author Outahajala, Mohamed es_ES
dc.contributor.author Benajiba, Yassine es_ES
dc.contributor.author Rosso, Paolo es_ES
dc.contributor.author Zenkouar, Lahbib es_ES
dc.date.accessioned 2015-02-27T12:25:26Z
dc.date.available 2015-02-27T12:25:26Z
dc.date.issued 2012-03-15
dc.identifier.issn 1114-8802
dc.identifier.uri http://hdl.handle.net/10251/47570
dc.description.abstract [FR] L’objectif de cet article est de présenter le premier étiqueteur grammatical amazighe. Très peu de ressources ont été développées pour l’amazighe et nous croyons que le développement d’un outil d’étiquetage grammatical est une étape préalable au traitement automatique de textes. Afin d'atteindre cet objectif, nous avons formé deux modèles de classification de séquences en utilisant les SVMs, séparateurs à vaste marge (Support Vector Machines) et les CRFs, champs markoviens conditionnels (Conditional Random Fields) en utilisant une phase de segmentation. Nous avons utilisé la technique de 10 fois la validation croisée pour évaluer notre approche. Les résultats montrent que les performances des SVMs et des CRFs sont très comparables. Dans l'ensemble, les SVMs ont légèrement dépassé les CRFs au niveau des échantillons (92,58% contre 92,14%) et la moyenne de précision des CRFs dépasse celle des SVMs (89,48% contre 89,29%). Ces résultats sont très prometteurs étant donné que nous avons utilisé un corpus de seulement ~ 20k mots. es_ES
dc.description.abstract [EN] The aim of this paper is to present the first amazigh POS tagger. Very few linguistic resources have been developed so far for amazigh and we believe that the development of a POS tagger tool is the first step needed for automatic text processing. In order to achieve this endeavor, we have trained two sequence classification models using Support Vector Machines (SVMs) and Conditional Random Fields (CRFs) after using a tokenization step. We have used the 10- fold technique to evaluate our approach. Results show that the performance of SVMs and CRFs are very comparable. Across the board, SVMs outperformed CRFs on the fold level (92.58% vs. 92.14%) and CRFs outperformed SVMs on the 10 folds average level (89.48% vs. 89.29%). These results are very promising considering that we have used a corpus of only ~20k tokens. es_ES
dc.description.sponsorship Les travaux du troisième auteur ont été financés par le projet de recherche EU FP7 Marie Curie PEOPLE-IRSES 269180 WiQ-Ei, MICINN TEXT-ENTERPRISE 2.0 TIN2009-13391-C04-03 (Plan I+D+i), VLC/CAMPUS Microcluster on Multimodal Interaction in Intelligent Systems.
dc.language Francés es_ES
dc.publisher Ecole Mohammadia d’Ingénieurs es_ES
dc.relation.ispartof E-TI : la revue électronique des technologies de l'information es_ES
dc.rights Reserva de todos los derechos es_ES
dc.subject Étiquetage grammatical automatique es_ES
dc.subject Langue amazighe es_ES
dc.subject TAL es_ES
dc.subject Apprentissage supervisé es_ES
dc.subject Segmentation es_ES
dc.subject Automatic POS tagging es_ES
dc.subject Amazigh language es_ES
dc.subject NLP es_ES
dc.subject Supervised learning es_ES
dc.subject.classification LENGUAJES Y SISTEMAS INFORMATICOS es_ES
dc.title L'étiquetage grammatical de l'amazighe en utilisant les propriétés n-grammes et un prétraitement de segmentation es_ES
dc.type Artículo es_ES
dc.relation.projectID info:eu-repo/grantAgreement/EC/FP7/269180/EU/Web Information Quality Evaluation Initiative/ es_ES
dc.relation.projectID info:eu-repo/grantAgreement/MICINN//TIN2009-13391-C04-03/ES/Text-Enterprise 2.0: Tecnicas De Comprension De Textos Aplicadas A Las Necesidades De La Empresa 2.0/ es_ES
dc.rights.accessRights Abierto es_ES
dc.contributor.affiliation Universitat Politècnica de València. Departamento de Sistemas Informáticos y Computación - Departament de Sistemes Informàtics i Computació es_ES
dc.description.bibliographicCitation Outahajala, M.; Benajiba, Y.; Rosso, P.; Zenkouar, L. (2012). L'étiquetage grammatical de l'amazighe en utilisant les propriétés n-grammes et un prétraitement de segmentation. E-TI : la revue électronique des technologies de l'information. 6:48-61. http://hdl.handle.net/10251/47570 es_ES
dc.description.accrualMethod S es_ES
dc.relation.publisherversion http://5.135.72.12/document.php?id=2192 es_ES
dc.description.upvformatpinicio 48 es_ES
dc.description.upvformatpfin 61 es_ES
dc.type.version info:eu-repo/semantics/publishedVersion es_ES
dc.description.volume 6 es_ES
dc.relation.senia 243844
dc.contributor.funder European Commission
dc.contributor.funder Ministerio de Ciencia e Innovación


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem