télécharger 4.44 Mb.
|
3.2. Constitution de ressources linguistiques sur le bambaraAu Mali, de nombreux textes sont produits dans les 11 langues nationales. Nous avons choisi de commencer par travailler sur le bambara, langue véhiculaire dominante dans le sens où elle est souvent utilisée comme langue de substitution par deux maliens de langues maternelles différentes [Calvet 1981]. La constitution de ressources linguistiques électroniques est en cours, elle se déroule en plusieurs étapes : - recueil de textes variés (articles de journaux, manuels de santé, de psychologie, de gestion, contes, dictionnaire, etc.), - conversion de ces textes, de format électroniques variés, au format Unicode, - représentation normalisée des textes à l’aide d’XML. En janvier 2004, nous avons collecté à Bamako un corpus de 89 684 mots en bambara. Ces textes sont issus de plusieurs auteurs (journalistes, écrivains) et appartiennent à différents genres (contes, manuels techniques, manuels de santé, récits, etc.). Ce corpus n’est évidemment pas définitif et sera complété au gré des nouvelles trouvailles. La première étape pour l’exploitation d’un tel corpus est sa normalisation. Les textes sont tous écrits en bambara correct, respectant les décrets en vigueur, mais ils ont été produits avec des polices « redessinées » pour afficher les caractères spéciaux, ce qui rend impossible leur exploitation électronique tels quels. Nous avons donc modifié le codage de ces caractères spéciaux afin de respecter le standard Unicode, et avons balisé les textes avec des balises XML15 conformément la norme XCES16. Nous avons aussi recueilli les fichiers électroniques constituant un dictionnaire bilingue bambara-français d’environ 8000 entrées [Bailleul 1996]. Ce dictionnaire constitue une importante ressource car les catégories lexicales des mots (nom, verbe) sont indiquées, ce qui permet d’envisager le calcul automatique des flexions et dérivations des mots en sein du correcteur orthographique. La transcription des mots diffère, cependant, des règles officielles car le bambara est une langue tonale et agglutinative ; le dictionnaire étant a priori destiné à des étrangers, l’auteur a indiqué les tons sous forme de signes diacritiques et il a rendu visible l’agglutination de mots en la marquant par un point et en donnant la traduction de chacun des mots, puis la traduction du composé (exemple : fàri.gan [corps.chaud] = fièvre). Des programmes ont donc été élaborés pour extraire les entrées du dictionnaire et leur catégorie grammaticale, modifier leur transcription (en supprimant signes diacritiques et point) afin de respecter les décrets. Le lexique a finalement été balisé conformément à la norme XCES. Le corpus de textes ainsi que le dictionnaire vont permettre d’ébaucher le lexique électronique du bambara. Tous les mots des textes seront intégrés à ce lexique, ainsi que les mots du dictionnaire auxquels il faudra ajouter leurs flexions. Quelques calculs statistiques pourront être mis en place, bien que la taille du corpus soit insuffisante pour qu’ils soient vraiment significatifs. Nous pourrons augmenter la taille du corpus en lui ajoutant des textes afin d’améliorer la fiabilité de ces calculs. 4. Conclusion Les obstacles techniques à l’écriture des langues africaines disparaissent grâce à l’émergence du standard Unicode pour le codage des caractères spéciaux. Les outils informatiques ne sont pas toujours adaptés à ces langues, mais d’ici quelques années des progrès considérables devraient avoir lieu, permettant ainsi aux africains d’utiliser leurs propres langues dans les environnements de communication les plus modernes. L’apparition de correcteurs orthographiques adaptés aux langues africaines devrait favoriser la production d’écrits et augmenter la présence des langues africaines sur internet. Le développement effectif d’un correcteur pour le bambara ainsi que la constitution de ressources linguistiques électroniques pour cette langue constituent un projet pilote destiné à valider l’approche que nous avons décrite. D’autres travaux suivant la même stratégie sont initiés dans d’autres langues de la région (wolof au Sénégal, hausa et zarma au Niger). Bibliographie[Andries 2002] Andries, P., Introduction à Unicode et à l’ISO 10646, Document numérique, vol.6, n°3-4, pp. 51-88, 2202. [Bailleul 1996] Bailleul, C. Dictionnaire bambara-français, éd. Donniya, Bamako, Mali, 1996. [Calvet 1981] Calvet, L.-J., Les langues véhiculaires, PUF, Que sais-je ?, 1981. [Calvet 1984] Calvet, L.-J., La tradition orale, PUF, Que sais-je ?, 1984. [Chanard 2001] Chanard, C., Popescu-Belis A., "Encodage informatique multilingue : application au contexte du Niger", Les cahiers du RIFAL, n°22, pp. 33-45, 2001. [Galtier 1993] Galtier, G., Séminaire harmonisation du Mandingue, DNALA/ACCT, Bamako, 24-28 août 1993. [Kukich 1992] Kukich, Karen. "Techniques for automatically correcting words in text", ACM Computing Surveys, 24(4), pp. 377–439. 1992. [Mbodj 2002] Mbodj, C., "Orthographe commune et législations nationales", Writing African – The Harmonisation of Orthographic Conventions in African Languages, ed. Kwesi Kwaa Prah, pp. 55-64, 2002. [Owino 2002] Owino, F. R., "The expansion of dholuo vowel system", Writing African – The Harmonisation of Orthographic Conventions in African Languages, ed. Kwesi Kwaa Prah, pp. 151-160, 2002. [Van der Veken 2003] Van der Veken, A., de Schryver, G.-M., "Les langues africaines sur la Toile : études des cas haoussa, somali, lingala et isixhosa", Les cahiers du RIFAL, n°23, pp. 33-45, novembre 2003. Annexe : Les affixes en bambara1. Les préfixes Tous se rattachent à une base verbale.
2. Les suffixes de dérivation 2.1. Suffixes de dérivation se rattachant à une base nominale
2.2. Suffixes de dérivation se rattachant à une base verbale et formant avec les bases auxquelles ils se rattachent des dérivés nominaux ;
2.3. Suffixe se rattachant à une base adjectivale et formant avec le radical des dérivés adjectivaux.
2.4. Suffixes se rattachant à une base numérale et formant avec le radical des dérivés numéraux.
Les suffixes de conjugaison Suffixes rattachés à une base verbale pour indiquer très généralement un passé : –ra25, –len26 et tù.
|