ebook img

PhD thesis_OUTAHAJALA PDF

152 Pages·2015·4.98 MB·French
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview PhD thesis_OUTAHAJALA

UNIVERSITE MOHAMMED V - RABAT ECOLE MOHAMMADIA D’INGENIEURS THESE Présentée pour l’obtention du DOCTORAT EN SCIENCES Spécialité : Informatique et Traitement Automatique des Langues Laboratoire Electronique et Communication Centre d'Etudes Doctorales Sciences et Techniques pour l'Ingénieur Par Mohamed OUTAHAJALA Apprentissage d’un étiqueteur morphosyntaxique de la langue amazighe Soutenue publiquement, le samedi 06 juin 2015 à 10h, devant le jury composé de: Pr. Zouhair GUENNOUN Ecole Mohammedia d’Ingénieurs Rabat Président Pr. Meftaha AMEUR Institut Royal de la Culture Rabat Rapporteur Amazighe Pr. Noureddine EL FADDOULI Ecole Mohammedia d’Ingénieurs Rabat Rapporteur Pr. Najib TOUNSI Ecole Mohammedia d’Ingénieurs Rabat Rapporteur Pr. Violetta CAVALLI-SFORZA Université Al Akhawayn Ifrane Examinatrice Pr. Lahbib ZENKOUAR Ecole Mohammedia d’Ingénieurs Rabat Directeur de thèse Pr. Paolo ROSSO Université Polytechnique de Espagne Co-directeur de thèse Valence Juin 2015 DEDICACE à mon père et ma mère, à ma femme et mes enfants, à mes frères, à toute ma famille, à tous mes amis. ii REMERCIEMENTS Je tiens à remercier vivement tout d’abord mes deux directeurs de thèse : - Lahbib Zenkouar, Professeur de l’Enseignement Supérieur à l’Ecole Mohammedia des Ingénieurs, qui a bien voulu m’accueillir au sein de son équipe et diriger ce travail ; je lui exprime ma sincère gratitude pour sa rigueur scientifique, son suivi permanent et son esprit critique; - Paolo Rosso, Professeur à l’Université Polytechnique de Valence, pour le suivi qu’il a assuré à ce travail de recherche et pour les conseils judicieux qu’il m’a prodigués tout au long de l’élaboration de cette thèse. Mes vifs remerciements aux membres du jury qui ont bien voulu étudier, évaluer cette thèse et pour toutes les remarques prodiguées. Je tiens également à remercier Yassine Benajiba, chercheur à Symanto Research (New York), d’avoir contribué à plusieurs activités liées à ce travail et pour m’avoir fait part de ses idées sur cette recherche. Je remercie tous mes collègues chercheurs de l’Institut Royal de la Culture Amazighe, plus particulièrement Kamal Ouaqqa, Mustapha Sghir et Lhossain Lgholb d’avoir contribué volontiers à l’annotation morphosyntaxique de la ressource mentionnée dans cette thèse et pour leurs opinions, idées et explications sur toutes les questions se rapportant à la linguistique amazighe. Je remercie également Antònia Martí et Manuel Bertran de l’université de Barcelone pour leur collaboration dans l’amélioration de l’outil AnCoraPipe afin de supporter les propriétés de la langue amazighe. Je n’oublie pas de remercier M. Ahmed Boukouss, Recteur de l’IRCAM, pour m’avoir autorisé à m’inscrire à l’école doctorale de l’EMI et pour m’avoir permis de participer à plusieurs conférences au Maroc et à l’étranger. Je remercie également le Conseil pour le Développement de la Recherche en Sciences Sociales en Afrique (CODESRIA) pour m’avoir accordé la bourse de rédaction des mémoires de thèse (SGRT. 17/T12). iii Résumé Comme la plupart des langues qui n’ont que récemment commencé les investigations en Traitement Automatique des Langues (TAL), la langue amazighe est peu dotée en ressources et outils du TAL. Dans ce sens, l’un des objectifs principaux de cette thèse est de doter cette langue de son premier étiqueteur morphosyntaxique. L’étiquetage morphosyntaxique est la première couche au-dessus du niveau lexical et le niveau le plus bas de l'analyse syntaxique et de toutes les tâches du TAL traitant des niveaux linguistiques supérieurs. Cette tâche produit des informations supplémentaires au texte en entrée ; chose très bénéfique pour les autres tâches du TAL l’utilisant. Afin d’atteindre cet objectif, nous avons formé deux modèles de classification de séquences, à savoir: les séparateurs à vaste marge (Support Vector Machines, SVMs), et les champs markoviens conditionnels (Conditional Random Fields, CRFs) en utilisant une phase de segmentation. Dans nos expérimentations, nous avons utilisé la technique de 10 fois validation croisée pour évaluer notre approche. Etant donné que nous avons utilisé un corpus d’environ ~ 20k mots, les résultats obtenus sont très prometteurs. La création des données étiquetées est une tâche difficile, alors que l’obtention des données brutes même si elles nécessitent du temps pour leur prétraitement pour les langues peu dotées, est moins coûteuse. Nous avons eu recours à l’utilisation de ressources externes afin d’améliorer la performance de l’étiqueteur. Ainsi, nous avons construit un corpus d’environ un quart de million de mots, dont nous avons utilisé le caractère informatif des mots hors vocabulaire et la mesure de confiance à même de réduire le taux d’erreur de l’étiqueteur. Pour améliorer la précision de notre étiqueteur morphosyntaxique, nous avons également exploré une ressource lexicale enrichie avec les étiquettes grammaticales. Mots-clés: Linguistique computationnelle, apprentissage machine, annotation morphosyntaxique, langue amazighe, SVMs, CRFs, TAL. iv Abstract Not unlike most languages that have recently been investigated under a Natural Language Processing (NLP) approach, Amazigh suffers from the scarcity of resources and NLP tools. With the above as background, the main aim of this thesis is to provide this language with its first full-fledged speech (POS) tagger. POS tagging annotation may well be viewed as the first layer above the lexical level and the lowest level in syntactic analysis along with all the NLP tasks dealing with higher linguistic levels. This task produces additional information for input texts, which is effective for other NLP tasks that make use of it. In order to develop a POS tagger for the Amazigh language, we trained two sequence labeling models, namely Support Vector Machines (SVMs) and Conditional Random Fields (CRFs), using a tokenizing preprocessing step. In our experiments, we have used the 10 fold cross validation method to evaluate our approach. The obtained results are very promising, even with a small size of labeled data of about 20k words. While creating labeled data for under resourced languages is a hard task, obtaining raw data, notwithstanding the time they require for their preprocessing, is less costly. We have explored the use of external resources to improve the performance of the tagger. We have, also, built a corpus of about a quarter million words; the informativeness of the non-vocabulary words as well as confidence measure have been used to reduce the error rate of the tagger. To improve the accuracy of our tagger, we have used a lexical resource which includes grammatical labels. Keywords: Computational linguistics, machine learning, POS tagging, Amazigh language, SVMs, CRFs, NLP. v (cid:6)ـــ(cid:2) ّ ــ(cid:4)(cid:5) (cid:15)$(cid:18)(cid:13)ﺗ (cid:15)(cid:16)(cid:10)ا ت(cid:18)(cid:19)(cid:7)(cid:10)ا #(cid:14) (cid:28)(cid:19)(cid:20)ز(cid:18)(cid:14)"ا (cid:19)(cid:7)(cid:10)ا (cid:21)(cid:13)ﺗ ،(cid:18)(cid:28)(cid:10)آ (cid:18)(cid:25)(cid:16)(cid:26)(cid:10)(cid:18)(cid:13)(cid:14) (cid:15)(cid:27) ء(cid:21)(cid:24)(cid:10)ا (cid:21)(cid:13)(cid:22) (cid:11)(cid:16)(cid:20) (cid:11)(cid:10) (cid:15)(cid:16)(cid:10)ا ت(cid:18)(cid:19)ّ(cid:7) (cid:10)ا (cid:11)(cid:12)(cid:13)(cid:14) را(cid:4)(cid:5) (cid:6)(cid:7)(cid:8) (cid:6)(cid:10)إ 56(cid:24)(cid:10)ا ا/ھ (cid:6)(cid:13)3(cid:20) ،,-.(cid:10)ا ا/ھ كرا(cid:21)(cid:16)(cid:10) (cid:18)(cid:28)(cid:13)2و . (cid:19)(cid:7)(cid:10) (cid:28)(cid:10)+ا (cid:26)(cid:10)(cid:18)(cid:13)’(cid:10)ا تاودأو (cid:20)&(cid:19)(cid:7)(cid:10)ا درا&’(cid:10)ا ةر(cid:21)$ #(cid:14) .(cid:15)(cid:24)(cid:28)=(cid:4)(cid:16)(cid:10)ا (cid:15)(cid:27)(cid:4)7(cid:10)ا (cid:11)2&(cid:7)(cid:10) #(cid:28)(cid:16)(cid:14)و 8(cid:28)9د م(cid:18)(cid:12).(cid:22) (cid:18)ھ(cid:21)(cid:20)و;ﺗو (cid:28)2(cid:18)2"ا (cid:20)&(cid:19)(cid:7)(cid:10)ا درا&’(cid:10)ا <(cid:13)(cid:22) (cid:4)(cid:28)(cid:27)&ﺗ (cid:15)(cid:27) ’ھ(cid:18)3’(cid:10)ا B(cid:28)(cid:7)6(cid:16)(cid:10)ا #(cid:14) (cid:4)(cid:28)A"ا ى&(cid:16)3’(cid:10)او ،(cid:15)’(cid:26)(cid:13)’(cid:10)ا ى&(cid:16)3’(cid:10)ا ق&(cid:27) (cid:6)(cid:10)و"ا -(cid:24)?(cid:10)ا &ھ (cid:15)(cid:24)(cid:28)=(cid:4)(cid:16)(cid:10)ا (cid:15)(cid:27)(cid:4)7(cid:10)ا (cid:11)2&(cid:10)ا (cid:15)?(cid:13)ﺗ (cid:28)(cid:7)’(cid:13)(cid:10)ا ه/ھ .(cid:6)(cid:7)(cid:8)أ (cid:20)&(cid:19)(cid:10) ت(cid:18)(cid:20)&(cid:16)3(cid:14) لو(cid:18).(cid:16)ﺗ (cid:15)(cid:16)(cid:10)ا (cid:19)(cid:7)(cid:10) (cid:28)(cid:10)+ا (cid:26)(cid:10)(cid:18)(cid:13)’(cid:10)ا ت(cid:18)(cid:28)(cid:7)’(cid:8) C(cid:28)’Dو (cid:15)(cid:24)(cid:28)=(cid:4)(cid:16)(cid:10)ا .L(cid:7)’(cid:13)(cid:16)3ﺗ (cid:15)(cid:16)(cid:10)ا (cid:19)(cid:7)(cid:10) (cid:28)(cid:10)+ا (cid:26)(cid:10)(cid:18)(cid:13)’(cid:10)ا ’(cid:12)$" (cid:28)(cid:10)(cid:18)(cid:13)ّ (cid:27) (cid:4)I=أ ءادJ(cid:22) K’3(cid:20) (cid:18)’ّ (cid:14) ،H(cid:10)(cid:18)(cid:13)’(cid:10)ا ,ّ.(cid:7)(cid:10) (cid:28)(cid:27)(cid:18)Gإ ت(cid:18)(cid:14)&(cid:7)(cid:13)(cid:14) ،ت(cid:18)(cid:14)P(cid:13)(cid:10)ا B3(cid:7)3(cid:16)(cid:10) #(cid:28)Dذ&’$ #(cid:20)&N(cid:16)(cid:22) (cid:18).’9 ، (cid:28)(cid:19)(cid:20)ز(cid:18)(cid:14)"ا (cid:19)(cid:7)(cid:10) (cid:15)(cid:24)(cid:28)=(cid:4)ﺗ ف(cid:4)7(cid:10)ا (cid:11)2&(cid:7)(cid:10) م(cid:18)(cid:12)$ دا(cid:21)(cid:8)إ BDأ #(cid:14) (cid:15)’(cid:28)3-ﺗ ى&(cid:16)3(cid:14) ما(cid:21)U(cid:16)2(cid:18)(cid:22) ،(CRFs) طو(cid:4)S’(cid:10)ا (cid:28)Rا&S(cid:13)(cid:10)ا ل&-6(cid:10)ا و (SVMs) ت(cid:18)(cid:25)(cid:26)(cid:16)’(cid:10)ا تQآ (cid:15)ھو (cid:18)(cid:25)(cid:28)(cid:7)(cid:8) B76(cid:16)’(cid:10)ا HR(cid:18)(cid:16).(cid:10)ا .HR(cid:18)(cid:16).(cid:10)ا 6ﺻ #(cid:14) 8-6(cid:16)(cid:7)(cid:10) (cid:11)(cid:28)(cid:28)-(cid:16)(cid:10)ا ت(cid:18)(cid:28).-ﺗ (cid:18).(cid:14)(cid:21)U(cid:16)2ا ،(cid:18).(cid:22)ر(cid:18)(cid:26)ﺗ (cid:15)(cid:27) . -(cid:24)3(cid:14) (cid:26)(cid:10)(cid:18)(cid:13)’= . ’(cid:7)= Y(cid:10)أ 20 (cid:15)(cid:10)ا&X #(cid:14) Y(cid:10)J(cid:16)ﺗ (cid:15)(cid:16)(cid:10)او (cid:7)’(cid:13)(cid:16)3’(cid:10)ا (cid:14)&2&’(cid:10)ا ت(cid:18)$(cid:18)(cid:28)(cid:24)(cid:10)ا (cid:11)(cid:26)X (cid:4)(cid:19)ﺻ C(cid:14) W(cid:10)ذو ،ا(cid:21)D ة(cid:21)(cid:8)او [(cid:7)?(cid:16)ﺗ (cid:18)(cid:14) (cid:18)(cid:24)(cid:10)(cid:18)(cid:5) (cid:15)(cid:16)(cid:10)او ، (cid:14)(cid:18)U(cid:10)ا ت(cid:18)$(cid:18)(cid:28)(cid:24)(cid:10)ا نأ #(cid:28)X (cid:15)(cid:27) ، (cid:14)&2&’(cid:10)ا ت(cid:18)$(cid:18)(cid:28)(cid:24)(cid:10)ا (cid:6)(cid:7)(cid:8) ل&76(cid:10)ا (cid:22)&(cid:13)7(cid:10) ا(cid:4)(cid:12)$و ءادأ #(cid:28)36(cid:16)(cid:10) (cid:28)Dر(cid:18)U(cid:10)ا درا&’(cid:10)ا ما(cid:21)U(cid:16)2ا (cid:18).(cid:7)](cid:27) ا/(cid:25)(cid:10) ، \(cid:7)Nﺗ B9أ &ھ ،درا&’(cid:10)ا (cid:7)(cid:28)(cid:7)9 ت(cid:18)(cid:19)(cid:7)(cid:10)ا B(cid:26)(cid:10) -(cid:24)3(cid:14) (cid:26)(cid:10)(cid:18)(cid:13)(cid:14) (cid:11)ّ ](cid:20) #(cid:16)(cid:14) #(cid:14) (cid:18)9P?$ا ،ت(cid:18)(cid:19)(cid:7)(cid:10)ا C(cid:28)’(cid:26)(cid:10) 6(cid:10)(cid:18)ﺻ ، (cid:28)(cid:14)زرا&A (cid:4)(cid:20)&?(cid:16)(cid:22) (cid:18).’9 ،د(cid:21)7(cid:10)ا ا/(cid:25)(cid:22)و .(cid:15)(cid:10)+ا (cid:11)2&(cid:10)ا م(cid:18)(cid:12)$ J?A (cid:24)3$ B(cid:28)(cid:7)-(cid:16)(cid:10) ،(cid:11)(cid:26)(cid:13)’(cid:10)ا جر(cid:18)A ت(cid:18)’(cid:7)N(cid:7)(cid:10) -ّـ I(cid:10)ا س(cid:18)(cid:28)-(cid:14)و ةد(cid:18)(cid:27)_ا C(cid:22)(cid:18)ط (cid:6)(cid:7)(cid:8) ;Nﺗ(cid:4)ﺗ ، ’(cid:7)= ن&(cid:28)(cid:7)(cid:14) C(cid:22)ر (cid:15)(cid:10)ا&X م(cid:18)(cid:12)$ 9د #(cid:28)36(cid:16)(cid:10) (cid:28)(cid:24)(cid:28)=(cid:4)(cid:16)(cid:10)ا (cid:28)(cid:27)(cid:4)7(cid:10)ا ت(cid:18)(cid:14)P(cid:13)(cid:22) (cid:28).(cid:19)(cid:10)ا تاد(cid:4)\’(cid:7)(cid:10) ادر&(cid:14) (cid:18)](cid:20)أ (cid:18).(cid:13)’D (cid:18)’= .(cid:15)’2&(cid:10)ا م(cid:18)(cid:12).(cid:10)ا .(cid:15)(cid:10)+ا (cid:11)2&(cid:10)ا تQآ ، (cid:28)(cid:19)(cid:20)ز(cid:18)(cid:14)"ا (cid:19)(cid:7)(cid:10)ا ،(cid:15)(cid:24)(cid:28)=(cid:4)(cid:16)(cid:10)ا (cid:15)(cid:27)(cid:4)7(cid:10)ا (cid:11)2&(cid:10)ا ،(cid:15)(cid:10)+ا (cid:11)(cid:7)(cid:13)ّ(cid:16) (cid:10)ا ، ّ(cid:28) (cid:22)&2(cid:18)6(cid:10)ا ت(cid:18)(cid:28)$(cid:18)3ّـ(cid:7)(cid:10)ا :(cid:14)(cid:15)(cid:16)(cid:11)(cid:17)(cid:18)(cid:12)(cid:7)ا ت(cid:11)(cid:12)(cid:4)(cid:13)(cid:7)ا . (cid:19)(cid:7)(cid:10) (cid:28)(cid:10)+ا (cid:26)(cid:10)(cid:18)(cid:13)’(cid:10)ا ، طو(cid:4)S’(cid:10)ا (cid:28)Rا&S(cid:13)(cid:10)ا ل&-6(cid:10)ا ،ت(cid:18)(cid:25)(cid:26)ّ(cid:16) ’(cid:10)ا vi ⴰⵙⴳⵣⵍ ⴷⵔⵓⵙⵏ ⵉⵙⵓⴳⴰⵎ ⴷ ⵉⵎⵉⵙⵏ ⵏ ⵓⵎⵙⴽⵍ ⴰⵟⵓⵎⴰⵟⵉⴽⵉ ⵏ ⵜⵓⵜⵍⴰⵢⵉⵏ ⵖⵓⵔ ⵜⵎⴰⵣⵉⵖⵜ ⴰⵎⵎ ⵜⵓⴳⴳⵜ ⵏ ⵜⵓⵜⵍⴰⵢⵉⵏ ⵏⵏⴰ ⵎⵃⵔⴰ ⵉⴱⴷⴰⵏ ⵉⵙⵏⵓⴱⴱⵓⵛⵏ ⴳ ⵓⵎⵙⴽⵍ ⴰⵟⵓⵎⴰⵟⵉⴽⵉ ⵏ ⵜⵓⵜⵍⴰⵢⵉⵏ. ⴰⵢⵏⵏⴰⵖ ⴰⵙ ⵉⴳⴰ ⵢⴰⵏ ⴳ ⵉⵡⵜⵜⴰⵙⵏ ⵏ ⵓⴷⵓⴽⵜⵓⵔⴰ ⴷⴷⵖ ⴰⴷ ⵏⴼⴽ ⵉ ⵜⵎⴰⵣⵉⵖⵜ ⴰⵎⵙⴽⵏⵍ ⴰⵍⵖⵙⵏⴰⵢ ⵏⵏⵙ ⴰⵎⵣⵡⴰⵔⵓ. ⵉⴳⴰ ⵓⵙⴽⵏⵍ ⴰⵍⵖⵙⵏⴰⵢ ⵢⴰⵜ ⵜⴰⵙⵇⵇⵉⴼⵜ ⵜⴰⵎⵣⵡⴰⵔⵓⵜ ⵏⵏⵉⴳ ⵏ ⵓⵙⵡⵉⵔ ⵏ ⵓⵎⴰⵡⴰⵍ, ⵉⴳ ⴰⵙⵡⵉⵔ ⴰⵎⴰⵣⴷⴰⵔ ⵏ ⵓⵙⴼⵉ ⴰⵎⵙⵏⵉⵢ ⴷ ⴰⴽⴽⵯ ⵜⵉⵎⵙⴽⵉⵔⵉⵏ ⵏ ⵓⵎⵙⴽⵍ ⴰⵟⵓⵎⴰⵟⵉⴽⵉ ⵏ ⵜⵓⵜⵍⴰⵢⵉⵏ ⵏⵏⴰ ⵜⵜ ⵢⵉⵡⵉⵏ ⴳ ⵓⵎⵙⴽⵍ ⵏ ⵉⵙⵡⵉⵔⵏ ⵉⵙⵏⵉⵍⵙⵉⵜⵏ ⵉⵎⴰⴼⵍⵍⴰⵡⵏ. ⵜⴰⵎⵙⴽⵉⵔⵜ ⴷⴷⵖ ⴷⴰ ⵜⴰⴽⴽⴰ ⵉⵏⵖⵎⵉⵙⵏ ⵢⴰⴹⵏⵉⵏ ⵉ ⵉⴹⵕⵉⵚⵏ ⵙ ⵉⵙⴰⴷⴼⵏ ; ⴰⵢⵏⵏⴰ ⵉⵀⵢⵢⴰⵏ ⵉ ⵜⵉⵎⵙⴽⵉⵔⵉⵏ ⵢⴰⴹⵏⵉⵏ ⵏ ⵓⵎⵙⴽⵍ ⴰⵟⵓⵎⴰⵟⵉⴽⵉ ⵏ ⵜⵓⵜⵍⴰⵢⵉⵏ. ⴰⴼⴰⴷ ⴰⴷ ⵏⵏ ⵏⴰⵡⴹ ⴰⵡⵜⵜⴰⵙ ⴷⴷⵖ, ⵏⴳⴰ ⵙⵉⵏ ⵡⴰⵏⴰⵡⵏ ⵏ ⵓⵏⵎⴰⵍⴰ ⵏ ⵜⴳⵣⵣⵓⵎⵉⵏ ⵏⵏⴰ ⵜⵏ ⵉⴳⴰⵏ : ⵉⴱⴹⵉⵜⵏ ⵉⴷ ⴱⵓ ⵜⴰⵙⴳⴰ ⵜⴰⴱⴰⵔⴰⵡⵜ (SVMs) ⴷ ⵉⴳⵔⴰⵏ ⵉⵎⴰⵔⴽⵉⴱⵉⵜⵏ ⵉⴼⴰⴷⴰⵏⵏ (CRFs) ⵙ ⵓⵙⵎⵔⵙ ⵏ ⵓⵣⵎⵣ ⵏ ⵓⴳⵣⴰⵎ. ⴳ ⵜⵙⵉⵔⵉⵎⵜ ⵏⵏⵖ, ⵏⵙⵎⵔⵙ ⵜⴰⵜⵉⵇⵏⵉⵢⵜ ⵏ 10 ⵏ ⵜⵉⴽⴽⴰⵍ ⵏ ⵓⵙⵖⵣⵏ ⵉⵎⵢⴰⴽⵛⴰⵎⵏ ⴰⴼⴰⴷ ⴰⴷ ⵏⵙⵜⵍ ⵜⴰⵎⵢⴰⴷⴰⵙⵜ ⵏⵏⵖ. ⵜⵉⵢⴰⴼⵓⵜⵉⵏ ⵏⵏⴰ ⴷ ⵉⴼⴼⵖⵏ ⴳⴰⵏⵜ ⵜⵉⵎⴰⴼⴰⵢⵉⵏ ⵡⴰⵅⵅⴰ ⵓⵔ ⵏⵙⵔⵎⵉⵙ ⵖⴰⵙ ⵢⴰⵏ ⵓⴳⵔⵉⵡ ⵏ 20 ⴰⵍⴼ ⵏ ⵜⴳⵓⵔⵉⵡⵉⵏ. ⵉⵎⴽⵉⵏⵏⴰ ⵏⵙⵙⵏ ⵉⵙ ⵜⵛⵇⵇⴰ ⵜⵓⴳⵉ ⵏ ⵜⵎⵓⵛⴰ ⵉⵜⵜⵓⵙⴽⵏⵍⵏ, ⴰⵔ ⵏⵏ ⵏⵜⵜⴰⴼⴰ ⵓⵎⵓⵥ ⵏ ⵜⵎⵓⵛⴰ ⵉⵍⵍⴰⵏ ⴳ ⵡⴰⴷⴷⴰⴷ ⴰⵎⵏⵣⵓ, ⵎⵇⵇⴰⵔ ⴷⴰ ⵉⵜⵜⴻⵜⵜⵔ ⵛⵉⴳⴰⵏ ⵏ ⵡⴰⴽⵓⴷ, ⵉⵙ ⵢⵓⵀⵏ ⴳ ⵓⵙⵎⴽⵍ ⵏⵏⵙⵏ ⵖⵓⵔ ⵜⵓⵜⵍⴰⵢⵉⵏ ⵎⵉ ⵖⵓⵔ ⵓⵔ ⵍⵍⵉⵏ ⵉⵎⵉⵙⵏ. ⵅⴼ ⵓⵢⴷⴷⵖ ⴰⵙ ⵏⴰⵏⵓⴳ ⴰⵙⵎⵔⵙ ⵏ ⵉⵙⵓⴳⴰⵎ ⵉⴱⵔⵔⴰⵏⵉⵢⵏ ⴰⴼⴰⴷ ⴰⴷ ⵏⵊⵊⵀⴷ ⵜⵉⵢⴰⴼⵓⵜⵉⵏ ⵏ ⵓⵎⵙⴽⵏⵍ. ⵏⵚⴽⴰ ⵢⴰⵏ ⵓⴳⵔⵉⵡ ⵏ ⵢⴰⵏ 220 ⴰⵍⴼ ⵏ ⵜⴳⵓⵔⵉ, ⵏⵏⴰ ⴳ ⵏⵙⵎⵔⵙ ⴰⵡⵏⵖⵓ ⴰⵏⵖⵎⴰⵙ ⵏ ⵜⴳⵓⵔⵉⵡⵉⵏ ⵓⵔ ⵉⵍⵍⵉⵏ ⴳ ⵓⵎⴰⵡⴰⵍ ⵉⵥⵍⵉⵏ ⴷ ⵓⵙⵇⵇⵓⵍ ⵏ ⵜⵖⵍⵉⴼⵜ ⴰⴼⴰⴷ ⴰⴷ ⵏⴽⵔⵓ ⴳ ⵓⵙⵖⵍ ⵏ ⵜⵣⴳⵍⵜ ⵏ ⵓⵎⵙⴽⵏⵍ. ⵏⵙⵙⵎⵔⵙ ⴰⵡⴷ ⴰⵙⴰⴳⵎ ⵏ ⵓⵎⴰⵡⴰⵍ ⵉⴱⴱⵓⵖⵍⴰⵏ ⵙ ⵜⵛⵏⵢⴰⵍⵜ ⵜⴰⵏⵊⵕⵓⵎⵜ ⴰⴼⴰⴷ ⴰⴷ ⵏⵙⵙⵃⵍⵓ ⵜⵉⵙⴷⴷⴰ ⵏ ⵓⵎⵙⴽⵏⵍ ⴰⵍⵖⴰⵙⵏⴰⵢ. ⵜⵉⴳⵓⵔⵉⵡⵉⵏ-ⵜⵉⵙⵓⵔⴰ: ⵜⴰⵊⵏⵢⵓⵔⵜ ⵏ ⵓⴳⵔⵉⵡ, ⴰⵍⵎⵎⵓⴷ ⵏ ⵓⵎⴰⴽⵉⵏⴰ, ⴰⵙⵏⵏⵇⴹ ⴰⵍⵖⴰⵙⵏⴰⵢ, ⵜⵓⵜⵍⴰⵢⵜ ⵜⴰⵎⴰⵣⵉⴳⵀⵜ, SVMs, CRFs, ⴰⵎⵙⴽⵍ ⴰⵟⵓⵎⴰⵟⵉⴽⵉ ⵏ ⵜⵓⵜⵍⴰⵢⵉⵏ. vii Table des matières LISTE DES TABLEAUX ....................................................................................................... XI LISTE DES FIGURES .......................................................................................................... XII LISTE DES ABREVIATIONS ............................................................................................... XIV INTRODUCTION GENERALE ................................................................................................ 1 CHAPITRE 1: ....................................................................................................................... PARTICULARITES ET DEFIS DES NTIC POUR L’AMAZIGHE ................................................... 4 1.1. Introduction ............................................................................................................................. 5 1.2. Brève description de la langue amazighe ................................................................................ 5 1.3. Codage de la langue amazighe ................................................................................................ 8 1.4. Les normes marocaines de saisie des tifinaghes .................................................................... 12 1.5. Les normes marocaines de classement des chaînes de caractères ......................................... 15 1.6. Identification de la langue et autres renseignements linguistiques ........................................ 17 1.7. Morphologie de la langue amazighe...................................................................................... 18 1.8. État de l’art de l’informatisation de l’amazighe .................................................................... 21 1.8.1. Ressources computationnelles générales ........................................................................ 21 1.8.2. Ressources TAL pour l’amazighe ................................................................................... 24 1.9. Synthèse ................................................................................................................................. 25 CHAPITRE 2: ....................................................................................................................... CONSTRUCTION D’UN CORPUS ANNOTE DE LA LANGUE AMAZIGHE .................................... 26 2.1. Introduction ................................................................................................................ 27 2.2. Ingénierie des langues ................................................................................................. 28 2.2.1. Propriétés des corpus .............................................................................................. 28 2.2.2. Types d’annotations ............................................................................................... 30 2.3. Construction d’un corpus amazighe annoté morphosyntaxiquement ............................ 33 2.4. Processus d’annotation ................................................................................................ 35 2.5. Encodage du corpus ..................................................................................................... 36 2.5.1. Les systèmes d'écriture ........................................................................................... 36 2.5.2. Description du corpus ............................................................................................. 38 2.6. Outil d’annotation ....................................................................................................... 39 2.6.1. L’environnement de développement Eclipse ........................................................... 39 viii 2.6.2. Description de l’outil AncoraPipe ........................................................................... 40 2.7. Difficultés de l’étiquetage grammatical de l’amazighe ................................................ 47 2.8. Autres utilisations du corpus annoté ............................................................................ 48 2.9. Synthèse ...................................................................................................................... 50 CHAPITRE 3: ....................................................................................................................... LES APPROCHES UTILISEES POUR L’ETIQUETAGE MORPHOSYNTAXIQUE ............................. 51 3.1. Introduction ................................................................................................................. 52 3.2. Etat de l’art des techniques d’étiquetage morphosyntaxique ........................................ 52 3.3. Introduction aux séparateurs à vaste marge ................................................................ 54 3.3.1. Les SVMs binaires .................................................................................................. 55 3.3.2. Les SVMs multi classe ............................................................................................ 60 3.3.3. Utilisation des noyaux ............................................................................................. 62 3.3.4. Applications des SVMs ........................................................................................... 63 3.4. Introduction aux champs markoviens conditionnels ..................................................... 64 3.4.1. Les modèles génératifs ............................................................................................ 64 3.4.2. Les modèles discriminants ...................................................................................... 65 3.4.3. Les modèles graphiques .......................................................................................... 66 3.4.4. Les CRFs ................................................................................................................ 67 3.4.5. Applications des CRFs ............................................................................................ 69 3.5. Synthèse ...................................................................................................................... 69 CHAPITRE 4: ....................................................................................................................... ETIQUETAGE MORPHOSYNTAXIQUE DE L’AMAZIGHE AVEC USAGE DE LA SEGMENTATION .. 71 4.1. Introduction ................................................................................................................. 72 4.2. Expérimentation de l’étiquetage morphosyntaxique sur la base d’un jeu d’étiquettes réduit ................................................................................................................................ 72 4.3. Résultats des expérimentations avec une phase de segmentation comme prétraitement ... ................................................................................................................................ 79 4.4. Segmentation des mots amazighes .............................................................................. 81 4.5. Description du jeu d’étiquettes AMTS ......................................................................... 85 4.6. Expérimentations d’étiquetage basées sur AMTS ........................................................ 87 4.6.1. Expérimentations et résultats ................................................................................... 87 4.6.2. Discussion des résultats et analyse des erreurs ........................................................ 89 4.7. Synthèse ...................................................................................................................... 90 CHAPITRE 5: ....................................................................................................................... UTILISATION DES RESSOURCES EXTERNES POUR L’AMELIORATION DES RESULTATS DE L’ETIQUETEUR ................................................................................................................ 91 ix 5.1. Introduction ................................................................................................................. 92 5.2. Etat de l’art des méthodes semi-supervisées utilisées en TAL ..................................... 92 5.3. Présentation du corpus non annoté et des modèles de références ................................. 94 5.3.1. Corpus brut ............................................................................................................. 94 5.3.2. Les modèles de références ....................................................................................... 96 5.4. Expérimentation et résultats ........................................................................................ 97 5.4.1. Sélection des données pour l’algorithme d’auto apprentissage ................................ 98 5.4.2. Utilisation de la propriété fréquences des OOV ..................................................... 103 5.5. Expérimentations de l’utilisation du caractère informatif et de la mesure de confiance comme critères pour l’auto-apprentissage ................................................................................ 105 5.5.1. Algorithme d’auto apprentissage ........................................................................... 106 5.5.2. Utilisation de la mesure de confiance du mot dans le choix des données ............... 106 5.5.3. Utilisation de la confiance de la phrase dans le choix des données ........................ 108 5.5.4. Utilisation du caractère informatif et la mesure de confiance lors du choix des données .............................................................................................................................. 108 5.6. Utilisation des lexiques externes pour l’amélioration des résultats de l’étiqueteur choisi . .............................................................................................................................. 110 5.7. Synthèse ................................................................................................................... 112 CONCLUSION ................................................................................................................ 113 BIBLIOGRAPHIE ............................................................................................................. 117 ANNEXES .................................................................................................................... 129 Annexe 1: Attributs et sous attributs des étiquettes utilisées dans l’annotation morphosyntaxique de l’amazighe ................................................................................................................ 129 Annexe 2: Exemple de texte annoté .................................................................................. 136 Annexe 3: Publications ................................................................................................... 137 x

Description:
l'univers des Technologies d'Information et de Communication. Nous donnerons ensuite un bref aperçu sur la morphologie amazighe ; cet aperçu répond au souci de rendre meilleure la lecture des chapitres suivants de ce travail. Le deuxième chapitre consistera en une introduction de l'ingénierie
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.