Thèse








titreThèse
page1/33
date de publication22.12.2016
taille1.3 Mb.
typeThèse
ar.21-bal.com > comptabilité > Thèse
  1   2   3   4   5   6   7   8   9   ...   33


N°attribué par la bibliothèque

|_|_|_|_|_|_|_|_|_|_|_|_|

UNIVERSITÉ DE CAEN / BASSE-NORMANDIE
U.F.R. : Sciences
ÉCOLE DOCTORALE : SIMEM

Thèse

présentée par

M. Dominique DUTOIT

et soutenue

le 30 novembre 2000

en vue de l’obtention du

DOCTORAT de l’UNIVERSITÉ de CAEN


Spécialité : 09 Sciences, TH4010 Informatique

(Arrêté du 30 mars 1992)



Titre :
Quelques Opérations SensTexte et TexteSens
utilisant une
Sémantique Linguistique Universaliste a priori


Directeur de thèse : M. Pierre Nugues

Jury :


M. Jean-Paul Haton

Professeur, LORIA, Inria Nancy

Rapporteur

M. Patrick Saint-Dizier

Directeur de recherche, IRIT, CNRS de Toulouse

Rapporteur

M. Pierre Nugues

Professeur, GREYC, Université de Caen

Directeur de thèse

M. William J. Black

Chercheur, Université de Manchester, Royaume-Uni




M. Amedeo Capelli

Chercheur, CNR de Pise, Italie




M. Patrice Enjalbert

Professeur, GREYC, Université de Caen




M. Anne Nicolle

Professeur, GREYC, Université de Caen




M. Bernard Victorri

Directeur de recherche, LATTICE, Ens Montrouge






Certaines rencontres donnent l’énergie, psychologique ou financière, pour continuer un projet.

A ce titre, nous remercions
M. Michel Régnier qui, dans le cadre de son activité au Centre National de la Fonction Publique Territoriale, nous a fait travailler en formation tant que nous en avons eu besoin,


M. Michel Héon, ancien DDRT, qui nous a fait confiance, et a contribué à nous fournir les premiers financements du Ministère de la Recherche (1991),

MM. Bernard Victorri et Patrice Enjalbert qui ont été les premiers chercheurs à trouver un intérêt à nos travaux.

Sans ces personnalités, notre projet aurait avorté il y a bien longtemps.

Et nous pensons aussi, sans les citer, à nombre de caractères qui nous ont soutenus et orientés par la suite. Les enseignants-chercheurs du Greyc se retrouveront ici, jusqu’à Pierre Nugues qui nous a autorisé à soutenir une thèse de doctorat en prenant le risque de sa direction.

Mais d’autres rencontres font qu’un projet passe de l’état de rêve à celui de début de réalisation.

C’est à M. Patrick de Torcy, informaticien talentueux, homme de constance et de confiance, ami de quinze ans que je dédie en premier lieu cette thèse.
C’était il y a 6 et 7 ans : nos deux premières propositions d’articles ont été acceptées dans des conférences importantes.

Depuis plus rien. C’est que par la suite, nos articles reprenaient, en le disant, mais sans pouvoir le détailler à nouveau, tout ce que nous avions déjà écrit et qui avait intéressé. Les nouveaux textes proposés ont paru sans substance à quiconque les découvrait sans nous connaître bien. Voilà, pour faire court, nous disions : c’est un réseau sémantique de 200.000 mots, et le lecteur avisé pensait : c’est WordNet en français. Nous disions : c’est de la sémantique componentielle hors domaine, et le lecteur suffisamment expert ne pouvait que penser : c’est une maquette sans prototype.

Mais le temps est encore passé et il nous offre aujourd’hui de mieux préciser notre cadre de travail, nos objectifs et nos moyens. C’est tout juste ce que nous souhaitons faire ici.
Table des matières


1. Introduction 11

1.1 Une sémantique linguistique universaliste a priori pour des opérations senstexte et textesens 11

1.1.1 Une sémantique linguistique 11

1.1.2 Les opérations sémantiques textesens et senstexte 13

1.1.3 Une sémantique universaliste a priori 14

1.1.4 Quelques problèmes posés par l’universalisme et l’apriorisme 18

1.2 Les opérations linguistiques traitées dans la thèse 19

1.2.1 Les opérations non sémantiques 19

1.2.1.1.1 Les opérations phonétiques 19

1.2.1.2 Les opérations morphologiques 19

1.2.1.3 Les opérations syntaxiques 19

1.2.1.4 Les opérations lexicales d’une langue vers une même langue 20

1.2.1.5 Les opérations lexicales d’une langue vers une autre langue 20

1.2.2 L’opération textesens de désambiguïsation lexicale 20

1.2.3 Les opérations texte-->sens-->texte 23

1.2.3.1 La gestion de l’opération de réduction et le dictionnaire à l’envers. 23

1.2.3.2 Le résumé automatique de textes au plan lexical 24

1.2.3.3 La sélection des mots pouvant rentrer dans les paraphrases d’énoncés courts pour l’expansion de requêtes 24

1.2.3.4 La sélection de contextes (co-texte) pour le filtrage d’informations 25

1.2.3.5 L’extraction d’informations structurée 25

1.2.3.6 La signature sémantique d’un texte 26

1.2.3.7 La classification automatique, le routage, l’accès aux nomenclatures 26

1.3 Travaux similaires aux travaux présentés 26

1.4 Historique de nos travaux et plan de la thèse 27

Partie I : Le Dictionnaire Intégral 31

2. Les descriptions universalistes du Dictionnaire Intégral 33

2.1 Les sources retenues pour élaborer le modèle de données du Dictionnaire Intégral 33

2.1.1 Le LADL 34

2.1.2 GENELEX 35

2.1.3 Le DEC 36

2.1.4 Les travaux de MEMODATA 36

2.1.5 WordNet et EuroWordNet 36

2.2 Les règles des descriptions universalistes 37

2.2.1 Les signes linguistiques 38

2.2.1.1 La graphie 38

2.2.1.2 Les signes de ponctuation 38

2.2.1.3 Règles concernant les unités morphologiques (UMorph) 38

2.2.1.4 Conclusion sur les unités morphologiques 44

2.2.2 Les propriétés syntaxiques des USèm : USynt 45

2.2.2.1 Les propriétés grammaticales des USèm 45

2.2.2.2 Règles concernant les propriétés syntaxiques des USèm 45

2.2.3 L’unité sémantique (USèm) 47

2.2.3.1 Les USèm selon le modèle senstexte 48

A ] Les fonctions lexicales de dérivation sémantique. 48

A1 ] Les fonctions lexicales de dérivation sémantique aboutissant à des paraphrases conservant la structure sémantico-discursive. 49

A2 ] Les fonctions lexicales de dérivation sémantique aboutissant à des paraphrases modifiant la structure sémantico-discursive. 50

B] Les fonctions lexicales verbales. 53

B1] Les fonctions lexicales verbales sans apport sémantique. 53

B2] Les fonctions lexicales verbales avec apport sémantique. 55

C] La synonymie 56

C1] La synonymie sans permutation d’actants 57

C2] La synonymie avec permutation d’actants 58

D] Relations de collocations et termes privilégiés 58

D1] Les collocations sémantiquement vides 58

D2] Les collocations avec apports sémantiques 59

E] Fonctions lexicales à valeur sémantique spécifique 62

F] Préposition régissant le mot clé 63

G] Formes exclamatives 64

H] Les fonctions lexicales non ou rarement autonomes 64

I] Fonctions diverses 66

J] Conclusions sur les rapports DEC / Dictionnaire Intégral 66

2.2.3.2 Autres informations concernant USèm 66

2.2.4 Conclusion sur les règles de description contextuelles. 67

2.3 Comparaison quantitative de WordNet puis de EuroWordNet et du Dictionnaire Intégral 68

2.3.1 WordNet et le Dictionnaire Intégral 68

2.3.1.1 Le dénombrement des nœuds 69

2.3.2 Dénombrement des sens par catégories syntaxiques 70

2.3.3 Dénombrement des relations de WordNet 71

2.3.3.1 Topologie générale 73

2.3.4 EuroWordnet et le Dictionnaire Intégral. 74

3. Les descriptions aprioriques du Dictionnaire Intégral 77

3.1 Principes minimaux de construction du Dictionnaire Intégral 77

3.1.1 Les principes minimaux de modélisation des mots-sens 77

3.1.1.1 Exposé général : l’exemple de renard 77

3.1.1.2 Cinq autres exemples 82

3.1.1.3 Peut-on sélectionner a priori certains traits sémantiques ? 89

3.1.2 Les principes minimaux de création des concepts. 91

3.2 L’ineffable dans le langage du Dictionnaire Intégral 95

3.2.1 Les propositions courantes 95

3.2.2 La non-prise en compte de la localisation dans le temps et l’espace 96

3.2.3 La non-prise en compte de la négation (en général) 96

3.2.4 L’impossibilité de déclarer certains traits de sens 96

3.2.5 La non-prise en compte de la rhétorique et de la thématique 96

3.2.6 Conclusion sur le point 97

3.3 Implémentation informatique des données du Dictionnaire Intégral 97

3.3.1 Principes de représentation 98

3.3.2 Modèle entité-relation des données. 102

Partie 2 : Le Sémiographe 103

4. L’architecture des composants et les traitements phonétiques, morphologiques syntaxiques et lexicaux du sémiographe 105

4.1 Une architecture particulière de composants linguistiques qui utilise la plupart des experts 106

4.2 Les experts morpho-phonétiques 107

4.2.1 Le phonétiseur du Sémiographe 107

4.2.2 Les experts morphologiques du Sémiographe 108

4.2.2.1 Les experts de lemmatisation 108

4.2.2.2 Les outils de flexion 111

4.3 L’analyseur syntaxique du Sémiographe 111

4.4 Les experts lexicaux du Sémiographe 114

4.4.1 Les experts lexicaux 115

4.4.1.1 Synonyme et antonyme du mot-sens clé 115

4.4.1.2 Spécifique du mot-sens clé 116

4.4.1.3 Générique du mot-sens clé 117

4.4.1.4 Les lieux inclus 118

4.4.1.5 Les lieux « incluant » 119

4.4.1.6 Les dérivés 120

4.4.1.7 Les équivalents de traduction 121

4.4.2 L’enchaînement des experts lexicaux et leurs usages 121

4.4.2.1 L’enchaînement des fonctions lexicales 121

4.4.2.2 Autres extractions : le filtrage paradigmatique et l’expansion de requêtes… 123

5. Quelques opérations textesens du Dictionnaire Intégral 125

5.1 La désambiguïsation des mots-sens dans la littérature récente 125

5.1.1 Les systèmes fonctionnant à l’aide de corpus annotés 126

5.1.2 Les systèmes fonctionnant depuis des corpus non annotés 127

5.1.3 Les systèmes fonctionnant sans corpus 129

5.1.4 Conclusion 129

5.2 Les opérations de distance sémantique du Sémiographe 130

5.2.1 Principe général 130

5.2.1.1 Exposé du problème 130

5.2.1.2 L’algorithme de calcul des PPPCS et des PPPCNS 134

5.2.1.3 La justification du mode de calcul par quelques exemples 135

5.2.1.4 Les cas supplémentaires traités dans l’algorithme 138

5.2.1.5 Les paramètres d’activation et de proximité sémantique 139

5.2.2 Résultats concrets de désambiguïsation sémantique 139

5.2.2.1 Étude détaillée de « Information sur le sens d’un énoncé » 140

A] La vision macroscopique de l’activation 140

B] La vision très analytique de la proximité sémantique 145

C°] Synthèse concernant les critères de choix entre les fonctions d’activation et de proximité sémantique. 153

5.2.2.2 Résultats sur les autres exemples (fonction d’activation seule utilisée) 154

5.2.3 Commentaires des résultats 155

5.2.3.1 Commentaire statistique 155

5.2.3.2 Commentaire critique : le bon sens 156

6. Les opérations applicatives textesenstexte du Dictionnaire Intégral 159

6.1 La réduction lexicale et le dictionnaire à l’envers 160

6.1.1 Problème posé 160

6.1.2 Architecture 161

6.1.3 Quelques résultats actuels et commentaires 162

6.2 Le résumé de textes 165

6.3 La sélection des mots pouvant rentrer dans les paraphrases d’énoncés courts pour l’expansion de requêtes 166

6.4 La sélection de contextes pour le filtrage d’informations 167

6.5 L’extraction d’informations structurées 168

6.6 La signature sémantique d’un texte 173

6.7 L’accès aux nomenclatures et le routage de documents 174

6.7.1 L’accès à un élément de nomenclature 174

6.7.2 Le routage 175

6.7.2.1 La classification automatique de documents 175

6.7.2.2 Le routage de courriers 177

6.8 La comparaison de deux textes 179

7. Conclusion 181

8. ANNEXES 197

8.1 Probabilité de résolution aléatoire de l’exemple 2 197

8.2 Extraits syntaxiques 202

8.3 Corrélats de billard trouvés dans la partie de billard (Alphonse Daudet, les contes du lundi) 206

9. Bibliographie 209
  1   2   3   4   5   6   7   8   9   ...   33

similaire:

Thèse iconThèse soutenue publiquement par Sang-Ha suh le 10 Juillet 2006
«avec projection», de cette thèse aux membres du Conseil scientifique et à leurs expliquer pourquoi cette thèse ne devait pas être...

Thèse iconThèse soutenue publiquement par Sang-Ha S. le 10 Juillet 2006 Le...
«avec projection», de cette thèse aux membres du Conseil scientifique et à leurs expliquer pourquoi cette thèse ne méritait pas d’être...

Thèse iconThèse Sommaire

Thèse iconTHÈse de doctorat

Thèse iconSujet de thèse

Thèse iconThèse de III

Thèse iconTHÈse présentée

Thèse iconRésumé de thèse

Thèse iconThèse 4 I. Introduction

Thèse iconRapport d'étape de thèse








Tous droits réservés. Copyright © 2016
contacts
ar.21-bal.com