ebook img

Graphes linguistiques multiniveau pour l'extraction de connaissances PDF

275 Pages·2017·3.01 MB·French
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Graphes linguistiques multiniveau pour l'extraction de connaissances

Graphes linguistiques multiniveau pour l’extraction de connaissances: l’exemple des collocations Vincent Archer To cite this version: Vincent Archer. Graphes linguistiques multiniveau pour l’extraction de connaissances: l’exemple des collocations. Informatique [cs]. Université Joseph-Fourier - Grenoble I, 2009. Français. ￿NNT: ￿. ￿tel-00426517￿ HAL Id: tel-00426517 https://theses.hal.science/tel-00426517 Submitted on 26 Oct 2009 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. THÈSE présentée par Vincent ARCHER Pour obtenir le titre de DOCTEUR DE L'UNIVERSITÉ JOSEPH FOURIER – GRENOBLE 1 (ARRÊTÉS MINISTÉRIELS DU 5 JUILLET 1984 ET DU 30 MARS 1992) Discipline INFORMATIQUE École doctorale Mathématiques, Sciences et Technologies de l'Information, Informatique Graphes linguistiques multiniveau pour l'extraction de connaissances : l'exemple des collocations 24 septembre 2009 Jury : Président : Catherine Berrut Rapporteurs : Yves Lepage Denis Maurel Eric Wehrli Examinateur : Bruno Gaume Directeur : Christian Boitet Co-directeur : Gilles Sérasset Thèse préparée au sein de l'équipe GETALP du Laboratoire d'Informatique de Grenoble Remerciements Je tiens à remercier toutes les personnes grâce à qui j'ai pu mener à bien cette thèse. Je suis, en premier lieu, reconnaissant à ceux qui l'ont dirigée : Christian Boitet et Gilles Sérasset. Gilles a encadré mes recherches depuis mon premier stage dans l'équipe, en 2003. Je lui exprime ma pleine gratitude (tiens, une collocation !) pour toutes ses remarques et tous ses conseils, pour sa disponibilité, et en particulier pour m'avoir aidé à (re)prendre de la confiance en moi et du recul quand cela a été nécessaire. Merci à Christian pour tous ses commentaires, ses corrections sur les différentes versions de la thèse, et pour sa rigueur et son exigence, qui ont permis de chasser de ce document nombre d'ambiguïtés et d'imprécisions. Je lui sais également gré pour ses relances répétées à propos d'un stage à Tokyo au printemps 2007, qui finirent par vaincre les réticences du timide que je suis. Je tiens à remercier les rapporteurs de cette thèse, messieurs Yves Lepage, Denis Maurel, et Eric Wehrli, dont les remarques m'ont permis d'améliorer le contenu de ce document. Je remercie également, pour avoir accepté de participer au jury, madame Catherine Berrut, présidente, et monsieur Bruno Gaume, examinateur. Je suis reconnaissant à tous les membres de GETALP, doctorants et permanents. Je remercie aussi les autres gens que j'ai pu côtoyer au LIG (…et au CLIPS), en particulier Jean-Pierre Chevallet qui m'a accueilli pour mon tout premier stage, en première année de Magistère, fin 2002. Je veux également exprimer ma gratitude à Akiko Aïzawa d'avoir encadré mon stage au National Institute of Infomatics de Tokyo, ainsi qu'à ceux que j'ai croisé là-bas. S'il m'a été utile au niveau de la recherche, ce stage m'a avant tout beaucoup apporté sur un plan personnel, me prouvant que j'étais capable d'évoluer tranquillement trois mois dans un pays dont je ne connaissais ni la langue ni même l'alphabet. Merci aussi à tous ceux que j'ai côtoyés depuis que je suis ATER sur la Côte d'Azur, à l'IUT à Cannes et à Nice, comme au laboratoire I3S au Sophia Antipolis, et particulièrement à l'équipe Ressources Linguistiques de Jacques Farré. Merci à l'école publique française, que j'ai suivie de la maternelle au doctorat. Je tiens enfin à exprimer ma grande reconnaissance à mes proches pour leur soutien. À ma famille, mes parents et mes grands-parents, qui ont toujours cru en moi, même dans les moments plus difficiles. À mon cousin Guillaume, pour nos grandes balades à vélo, nos longues discussions, et ses qualités d'écoute. À mes amis (Philippe, François, Yvan, Damien, Sylvain, les deux Julien, Anthony), pour tous les moments salutaires de détente et tous les sourires que je leur dois. Aux copines de msn (Sophia, Élise). À Valérie. Table des matières Introduction 1 P I - L 5 ARTIE EPROBLÈME DE LACOLLECTE DE COLLOCATIONS Chapitre I –Motivation : la collecte de collocations 7 1 Introduction aux problèmes linguistiques......................................................................7 1.1 Les champs d'étude de la linguistique théorique...................................................7 1.2 Une première définition des collocations............................................................10 1.3 Où s'inscrivent les collocations ?.........................................................................10 2 Le phénomène collocatif.............................................................................................11 2.1 Définition.............................................................................................................11 2.2 Types de collocation............................................................................................14 2.3 Propriétés.............................................................................................................14 3 Conséquences sur les traitements multilingues...........................................................15 3.1 Les collocations en traduction automatique.........................................................15 3.2 Une base de collocations ?...................................................................................19 3.3 Bicollocation........................................................................................................20 4 Description...................................................................................................................20 4.1 Questions..............................................................................................................21 4.2 Comment répondre ?............................................................................................21 5 Quel problème résoudre ?............................................................................................22 5.1 Découvrir des collocations...................................................................................22 5.2 Utilisation de l'outil informatique........................................................................23 Conclusion.......................................................................................................................24 Chapitre II -Un cadre théorique pour le traitement des collocations 25 1 Lexiques énumératifs...................................................................................................25 1.1 Lexicologie explicative et combinatoire - Fonctions lexico-sémantiques...........25 1.2 WordNet...............................................................................................................30 1.3 ComLex................................................................................................................31 1.4 EDR......................................................................................................................32 1.5 HowNet................................................................................................................34 2 Lexiques par regroupements........................................................................................35 2.1 Lexique génératif.................................................................................................35 2.2 Sémantique des cadres – Framenet......................................................................37 2.3 Classes de Levin..................................................................................................40 2.4 Lexique-Grammaire (tables du LADL)...............................................................41 2.5 Lexical Conceptual Structures.............................................................................41 2.6 Verbnet.................................................................................................................42 3 Comparaison des représentations................................................................................44 i 3.1 Éléments de comparaison....................................................................................46 3.2 Récapitulatif.........................................................................................................46 4 Fonctions lexico-sémantiques et théorie sens-texte.....................................................46 4.1 Représentation sémantique..................................................................................47 4.2 Représentations syntaxiques................................................................................47 4.3 Représentations morphologiques.........................................................................49 4.4 Bilan sur les fonctions lexico-sémantiques dans la TST.....................................49 Conclusion.......................................................................................................................50 Chapitre III -État de l'art de la collecte de collocations 51 1 Collocations et « expressions multi-mots ».................................................................51 2 Concordances...............................................................................................................51 3 Extraction.....................................................................................................................53 3.1 Hybride statistique-linguistique...........................................................................54 3.2 Identifications des candidats................................................................................54 3.3 Contextes..............................................................................................................55 3.4 Étapes...................................................................................................................59 3.5 Choix de la mesure statistique.............................................................................60 3.6 Filtrage des résultats............................................................................................63 3.7 Travaux bilingues.................................................................................................65 4 Apprentissage automatique..........................................................................................66 5 Contribution humaine..................................................................................................67 5.1 Wiktionnaire........................................................................................................67 5.2 Papillon................................................................................................................69 5.3 Jeuxdemots...........................................................................................................71 6 Raffinement du problème............................................................................................74 6.1 Choix de l'extraction............................................................................................74 6.2 Redéfinition du problème....................................................................................74 Conclusion.......................................................................................................................74 P II - B ' 77 ARTIE ESOINS ETSOLUTIONS DE L EXTRACTION DE CONNAISSANCESLINGUISTIQUES Chapitre IV -Besoins de l'extraction 79 1 Extraction monolingue................................................................................................79 1.1 Méthode hybride et semi-automatique.................................................................79 1.2 Filtrage sémantique..............................................................................................81 1.3 Déroulement de l'extraction.................................................................................84 1.4 Évaluation............................................................................................................85 1.5 Bilan des expérimentations..................................................................................89 2 Extractions bilingues contrastives...............................................................................90 2.1 Entités de référence associées..............................................................................90 2.2 Associations de termes et de collocations............................................................94 2.3 Déroulement de l'extraction.................................................................................96 2.4 Évaluation............................................................................................................98 2.5 Bilan des expérimentations................................................................................102 Conclusion.....................................................................................................................103 Chapitre V -Un problème d'outils et de modélisation 105 ii 1 Améliorer l'extraction................................................................................................105 1.1 Qualité de l'extraction........................................................................................105 1.2 Outils pour l'extraction.......................................................................................106 1.3 Centrage sur un outil informatique générique...................................................108 2 Cahier des charges d'un outil pour l'extraction..........................................................108 2.1 Processus............................................................................................................108 2.2 Données..............................................................................................................109 2.3 Graphes..............................................................................................................109 3 Manipulation de graphes...........................................................................................110 3.1 Extraction basée sur les graphes........................................................................110 3.2 Modification du graphe......................................................................................111 3.3 Structure des graphes linguistiques....................................................................112 3.4 Représentation de relations n-aires....................................................................120 4 Cahier des charges d'un modèle de graphe pour l'extraction de connaissances linguistiques...................................................................................................................121 4.1 Données..............................................................................................................122 4.2 Processus............................................................................................................122 Conclusion.....................................................................................................................123 Chapitre VI -Modèle de graphe pour un traitement de ressources à haut niveau 125 1 MuLLinG, un modèle de graphe multiniveau...........................................................125 1.1 Réponses au « cahier des charges »...................................................................125 1.2 Une structure multiniveau..................................................................................127 1.3 Définition précise...............................................................................................128 2 Opérateurs génériques...............................................................................................129 2.1 Ce qui relève du modèle....................................................................................129 2.2 Opérateurs : accès et modification du graphe....................................................130 2.3 Application – Filtrage........................................................................................131 2.4 Émergence..........................................................................................................132 2.5 Calcul de mesures..............................................................................................139 2.6 Union, intersection, différence...........................................................................144 3 Représentation complexe...........................................................................................152 3.1 Arcs à plus de deux extrémités..........................................................................152 3.2 Nouveaux opérateurs de la représentation complexe.........................................154 3.3 Opérateurs adaptés à la représentation complexe..............................................156 Conclusion.....................................................................................................................166 P III - I 167 ARTIE MPLÉMENTATIONETAPPLICATIONS Chapitre VII -Implémentation 169 1 Langage de programmation.......................................................................................169 2 Choix d'un langage de stockage.................................................................................170 2.1 DOT...................................................................................................................170 2.2 GML...................................................................................................................172 2.3 XGMML............................................................................................................174 2.4 GXL...................................................................................................................176 2.5 GraphML............................................................................................................177 iii 2.6 Choix effectué : GraphML.................................................................................180 3 Points d'implémentation............................................................................................180 3.1 Graphe................................................................................................................180 3.2 Opérations..........................................................................................................182 Conclusion.....................................................................................................................184 Chapitre VIII -Extraction de collocations par manipulation de graphes 185 1 Représentation des données.......................................................................................185 1.1 Extraction monolingue.......................................................................................185 1.2 Extraction bilingue.............................................................................................185 2 Propagation................................................................................................................186 3 Séquence d'opérations................................................................................................187 3.1 Extraction monolingue.......................................................................................187 3.2 Extraction bilingue.............................................................................................191 4 Expérimentations.......................................................................................................197 4.1 Monolingue........................................................................................................197 4.2 Bilingue..............................................................................................................200 Conclusion.....................................................................................................................204 Chapitre IX -Une autre application : mesure d'association bilingue à partir de WordNet 205 1 Caractériser les liens de traduction............................................................................205 1.1 Liens de référence : WordNet............................................................................205 1.2 Utilisation : sources de liens de traduction........................................................207 2 Représentation des données.......................................................................................208 3 Nouvelles opérations (pré-traitement des associations bilingues).............................209 3.1 Création des nœuds-entités................................................................................209 3.2 Création des nœuds-alignements.......................................................................210 3.3 Création de liens d'apparition conjointe.............................................................212 4 Séquence d'opérations................................................................................................213 4.1 Identification des informations utiles.................................................................213 4.2 Union des graphes..............................................................................................217 4.3 Production des liens d'apparition conjointe entre mots.....................................217 4.4 Mise en œuvre....................................................................................................217 5 Expérimentations.......................................................................................................221 5.1 Préparation des données.....................................................................................221 5.2 Résultats.............................................................................................................223 5.3 Observations......................................................................................................228 Conclusion.....................................................................................................................228 Conclusion 231 B 233 IBLIOGRAPHIE A 247 NNEXES Annexe A – Les fonctions lexico-sémantiques 249 iv Annexe B – Fichier GraphML représentant un graphe MuLLinG 253 Annexe C – Entrées de WordNet 255 WordNet de Princeton (2.0)...........................................................................................255 EuroWordNet.................................................................................................................256 Wolf (0.1.4)...................................................................................................................257 v

Description:
To cite this version: Vincent Archer. Graphes linguistiques multiniveau pour l'extraction de connaissances : l'exemple des collocations. Informatique [cs]. Raucher. J'ai eu une peur bleue. Ich habe eine blaue Angst gehabt. Ich habe eine. Heidenangst gehabt. Ich hatte eine blaue Angst. Ich hatte ei
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.