Concepts, actions et outils linguistiques








télécharger 4.44 Mb.
titreConcepts, actions et outils linguistiques
page10/74
date de publication21.01.2020
taille4.44 Mb.
typeDocumentos
ar.21-bal.com > droit > Documentos
1   ...   6   7   8   9   10   11   12   13   ...   74

Expérimentation de normes de balisage
en langues partenaires

Thierno Cisse,


Département de linguistique, Université Cheikh Anta Diop de Dakar.

Chérif Mbodj,


Centre de linguistique appliquée de Dakar,

Université Cheikh Anta Diop de Dakar.

Marc Van Campenhoudt,


Centre de recherche Termisti,
Institut supérieur de traducteurs et interprètes,
Haute École de Bruxelles.

Mohamédoune (dit Doudou) Wane


Département des langues nationales et de linguistique,
Université de Nouakchott.


Résumé : Cette communication présente les premiers enseignements de l’action de recherche en réseau Expérimentation de normes de balisage en langues partenaires. Les auteurs s’intéressent au balisage selon la norme XML de corpus lexicaux et textuels dans différentes langues du Sénégal et de Mauritanie (balante, bambara, pulaar, serer et wolof). Ils abordent également la problématique de l’écriture de ces langues à l’aide de claviers de saisie virtuels permettant d’utiliser le standard Unicode.

Mots-clés : XML, XCES, Unicode, claviers virtuels, langues partenaires.



1. Introduction

Le réseau Internet, devenu une réalité accessible, permet aux chercheurs des universités africaines d’envisager une meilleure diffusion de leurs travaux de description linguistique et de s’affirmer comme acteurs autant que comme consommateurs. Jusqu’à présent, leurs données linguistiques (enquêtes de terrain, lexiques, transcriptions phonétiques…) ont été consignées à l’aide de toutes sortes de supports et ne peuvent être consultées que sur place. Dans le même temps, on observe que des universités et des ONG du Nord diffusent des données sur les langues d’Afrique, ce qui conduit, de facto, à occulter tout le travail de description et d’appropriation des départements de linguistique des universités africaines. Aujourd’hui, l’adoption de techniques standardisées de consignation des données constitue une étape cruciale pour le développement de l’ingénierie linguistique en langues partenaires ; il importe donc que la communauté des africanistes puisse disposer de normes de description aisément compatibles.

Le langage de balisage XML autorise la représentation d’une grande variété d’informations descriptives au sein d’un corpus linguistique. Grâce au puissant mécanisme des feuilles de style XSL, il permet, dans un second temps, de diffuser les contenus au format HTML utilisé sur Internet. XML présente aussi l’avantage majeur d’avoir été pensé dans la logique du standard Unicode27, qui autorise l’utilisation d’une grande variété de systèmes d’écriture au sein d’un même document et facilite donc l’usage de caractères issus de l’alphabet phonétique international.

Financée par le réseau Lexicologie, terminologie, traduction de l’Agence universitaire de la Francophonie, l’action de recherche en réseau Expérimentation de normes de balisage en langues partenaires réunit trois partenaires : l’Université Cheikh Anta Diop de Dakar (Centre de linguistique appliquée de Dakar et département de linguistique), l’Université de Nouakchott (département des langues nationales et de linguistique) et l’Institut supérieur de traducteurs et interprètes (Haute École de Bruxelles, Centre de recherche Termisti). Elle a pour ambition de permettre aux chercheurs du Nord et du Sud de s’initier au balisage XML des corpus textuels et des bases de données lexicales et de vérifier l’intérêt des propositions de normes existantes au regard de la réalité de langues souvent négligées par la normalisation internationale. L’objectif des partenaires du projet est d’arriver à diffuser, au départ du serveur de leurs universités respectives, des données linguistiques de natures diverses, en sorte qu’elles puissent servir à une large communauté scientifique. La mise en réseau de ces matériaux devrait permettre leur étude à distance et alimenter les travaux des enseignants et des étudiants intéressés par la connaissance de ces langues.

2. XML

Les corpus linguistiques, textuels ou lexicaux, constituent par excellence des documents structurés. Il n’est point nécessaire d’encore en apporter ici l’explication ou la démonstration. L’enjeu fondamental nous semble plutôt être de généraliser la consignation des données linguistiques sous la forme de documents structurés qui soient balisés selon la norme XML28. Alors que l’informatique est un outil, l’apprentissage des techniques de balisage peut paraître une corvée fastidieuse là où des suites bureautiques semblent souvent apporter une réponse suffisante aux besoins immédiats. Plutôt que de revenir sur le fait que ces suites ne permettent généralement pas de bien représenter les liens de dépendance qui structurent les données, il nous semble important de souligner l’autonomie nouvelle qu’apporte XML au linguiste. En effet, à l’aide d’un bon éditeur XML, celui-ci peut tout à la fois encoder ses données sous un format universel aisé à exploiter, les diffuser sur un serveur Internet ou Intranet au format HTML et les ordonnancer de la manière qui lui paraît la plus pertinente.

Dans le cas des langues partenaires possédant des caractères phonétiques particuliers, voire une représentation des tons, l’usage de XML semble particulièrement intéressant, puisqu’il intègre un jeu de caractères universel à travers l’usage de la norme Unicode. Les caractères Unicode d’un fichier XML ne sont pas ambigus, ce qui offre la garantie qu’ils seront toujours interprétés correctement. La possibilité d’utiliser aisément Unicode constitue un préalable important qui sera approfondi au point 3.

S’agissant d’expérimenter la pertinence d’un balisage XML, les partenaires de l’action de recherche se sont déjà intéressés à plusieurs définitions de type de document (DTD) proposées comme normes d’échange de corpus linguistiques.

2.1. Corpus textuels

Les partenaires se sont principalement intéressés à la norme XCES. Il s’agit d’une proposition d’adaptation à XML de la norme SGML Corpus Encoding Standard (CES) qui a résulté des projets européens Multext et Eagles et est, elle-même, une évolution de la Text Encoding Initiative (TEI). Le projet XCES est le fruit d’une collaboration entre le Vassar College (New York) et le Loria (Nancy). Il a débouché sur l’élaboration de feuilles de style permettant de convertir des corpus textuels de XML vers HTML de manière à pouvoir les diffuser sur la toile29.

Plusieurs essais de balisage XCES de textes en bambara, pulaar et wolof ont été réalisés dans le cadre de l’action de recherche30. Quand bien même une bonne maîtrise du formalisme des DTD et de l’anglais est nécessaire pour bien utiliser les balises, force est de constater que celles-ci permettent de rendre compte d’un grand nombre d’éléments descriptifs, même si l’on attend avec intérêt le complément prévu par les concepteurs de XCES pour ce qui concerne les corpus oraux.

La feuille de style cesdoc.xsl qui permet de transformer un fichier XCES en fichier HTML est particulièrement puissante. Son expérimentation montre toutefois qu’elle devrait encore être améliorée sous plus d’un aspect pour permettre une présentation qui satisfasse les plus exigeants31. On a aussi observé quelques cas où le fichier HTML résultant de la transformation XSL présentait une perte de données32. La complexité de cette feuille de style suppose des compétences très avancées de la part de celui qui souhaiterait la modifier, compétences qui ne sont normalement pas celle du linguiste descripteur. La tentation peut être grande de modifier le balisage pour obtenir une présentation HTML adéquate, ce qui serait une mauvaise stratégie. Les partenaires de l’action de recherche plaideraient plutôt, et bien volontiers, pour le financement d’un nouveau développement d’une semblable feuille de style.

2.2. Corpus lexicaux

Beaucoup de lexiques consacrés aux langues nationales ont été réalisés et diffusés avec les moyens du bord et leurs supports informatiques n’ont pas toujours pu être correctement conservés. Ce constat justifie pleinement l’idée d’une consignation sous un format universel. Nous n’approfondirons pas ici la critique des logiciels dédiés à la gestion lexicale ou terminologique : on se bornera à constater que nombre de ces logiciels répondent mal à l’idéal d’universalité (cf. 3.1 et 3.2.4) et qu’ils ne permettent généralement pas d’exploiter pleinement la puissance d’un modèle de document (DTD) pour contrôler la succession des champs et l’architecture des données. Aujourd’hui, un logiciel tel que XML Spy donne une idée des possibilités offertes par un éditeur XML capable de proposer une grille de saisie comparable à celle d’un gestionnaire de base de données. Une convergence de ces outils peut raisonnablement être attendue au cours des prochaines années.

2.2.1 Approche terminographique ou lexicographique ?

Les véritables dictionnaires terminologiques adoptent une perspective conceptuelle fondée tout à la fois sur le regroupement des synonymes autour d’une même définition et sur le dégroupement homonymique de termes considérés sous l’angle de la monosémie. Les dictionnaires lexicographiques adoptent plus volontiers un point de vue polysémique et un classement alphabétique. Quelle que soit l’approche initialement suivie, une bonne représentation XML des données devrait permettre par le mécanisme des transformations XSL de passer d’une perspective à l’autre, comme l’a déjà démontré le projet européen DHYDRO (Descotte et al. 2001 et Van Campenhoudt 2002).

L’analyse montre qu’une majorité des lexiques conçus dans le cadre de politiques d’aménagement linguistique en Afrique francophone suivent l’approche lexicographique. Conçu très souvent comme une liste alphabétique d’équivalents, ils suivent habituellement une structure simple, mais qui – comme celle de tout dictionnaire classique – n’est pas toujours aussi rigoureuse qu’un modèle de données décrit dans une DTD. La logique voudrait que pour une perspective lexicographique, on utilise les prescriptions du chapitre 12 « Print Dictionaries » de la Text Encoding Initiative (TEI). Le balisage initialement proposé par cette norme ne permettait pas de décrire véritablement les structures profondes du dictionnaire car il ne prévoyait qu’un codage implicite des informations (Ide et Véronis 1996 : 174). Les partenaires expérimenteront prochainement la récente version P4 de la TEI, réputée compatible avec XML, pour vérifier si elle permet ‑ comme ses auteurs l’affirment – de désormais surmonter cet obstacle (Sperberg-McQueen, et Burnard 2002 : chap. 12.5).

2.2.2 Expériences menées

S’agissant de décrire des données conçues dans une perspective clairement lexicographique, les partenaires ont créé une DTD « maison » pour baliser un échantillon du projet de dictionnaire wolof-français préparé au sein du département de linguistique de l’Université Cheikh Anta Diop. Les noms des balises sont empruntés à la norme terminologique Iso 12 620, ce qui a l’avantage de permettre une fine description du contenu réel des champs utilisés. L’échantillon balisé a fait l’objet d’une transformation vers HTML consultable sur le site du projet. Dans un avenir prochain, on pourra tenter de représenter également ces données à l’aide de la TEI.

Les partenaires ont également expérimenté une DTD proposée par le Rifal pour baliser l’ensemble des lexiques publiés avec son aide et ensuite les réunir dans une base de données commune. Cette DTD a été conçue dans une perspective conceptuelle et constitue un langage de balisage terminologique (terminological markup language) au sens où l’entend la norme Iso 12 642 (2003). Son expérimentation a conduit à ajouter trois éléments supplémentaires (prononciation, classe et renvoi) à cette DTD sans doute trop minimaliste au regard de la réalité des deux échantillons de lexiques balisés33. Une première feuille de style a permis une représentation HTML typiquement conceptuelle de ces données34. Il sera intéressant de développer ultérieurement une feuille de style permettant de réordonnancer ces mêmes données selon une macrostructure plus lexicographique.

3 Unicode, l’indispensable complément

L’écriture des langues africaines intègre souvent des caractères ou des signes diacritiques issus de l’alphabet phonétique international. Leur usage a parfois été entériné par la législation. Nombre de travaux de linguistique descriptive et de textes officiels utilisent ces caractères, dont la représentation informatique a longtemps soulevé des problèmes de portabilité.

Le codage des caractères sur 8 bits a, jusqu’il y a peu, limité l’étendue des tables de caractères, contraignant les africanistes à opérer des jeux de substitution arbitraires parmi les différentes tables issues des normes Iso-CEI 8859. Ce pis-aller a débouché sur la mise en circulation de toutes sortes de polices – commerciales ou non – modifiant de manière anarchique les tables Iso-CEI 8859 (1998-2001) et compliquant tout échange de données. Ces anciennes polices satisfont toujours certains besoins locaux, mais elles doivent aujourd’hui être vues comme un obstacle à une bonne représentation informatique des langues partenaires et à une large implantation de leur orthographe. En effet, la norme Unicode permet désormais de représenter en une table unique les caractères d’un très grand nombre de langues, avec pour net avantage qu’un seul et même fichier informatique peut combiner de nombreuses écritures différentes. L’adoption de cette nouvelle norme offre à ses utilisateurs la certitude que leurs textes pourront être lus partout dans le monde avec un affichage correct de leurs caractères, notamment sur Internet.

3.1. Encoder en Unicode à l’aide d’un clavier virtuel

On comprendra aisément que l’adoption d’Unicode – parfaitement adapté à XML – constitue désormais un préalable fondamental pour la bonne représentation et la bonne diffusion des langues partenaires, et ce d’autant plus qu’un transcodage des anciens fichiers utilisant les normes Iso-CEI 8859 est parfaitement réalisable (Chanard et Popescu-Belis 2001). L’usage d’Unicode est aisé dès lors que l’on utilise un PC utilisant Windows 2000 ou XP35. Il est, bien entendu indispensable d’utiliser une police Unicode (Arial MS Unicode, Lucida sans Unicode, Sil Doulos Unicode, Gentium, etc.) pour obtenir un affichage correct des caractères.

Nombre de logiciels sont déclarés « compatibles Unicode ». Malheureusement, l’encodage y est souvent conditionné par le choix d’une langue prévue dans le logiciel et censée utiliser un sous-ensemble limité de caractères Unicode. Lorsqu’il veut encoder des données dans une langue utilisant d’autres caractères, l’utilisateur doit soit changer le clavier actif dans le système d’exploitation (s’il existe), soit utiliser un fastidieux menu d’insertion de caractères spéciaux. Un logiciel réellement conçu dans la logique d’Unicode doit permettre la création de fichiers mélangeant les systèmes d’écriture et un encodage par le biais d’un clavier virtuel, qui réaffecte certaines touches du clavier aux caractères Unicode souhaités.

3.2. Procédure de création d’un clavier virtuel

Les partenaires de l’action de recherche ont créé à titre expérimental des claviers virtuels pour sept langues partenaires de Mauritanie et du Sénégal : le balante, le bambara, le pulaar, le serer et le wolof. Ceux-ci peuvent être téléchargés sur le site Internet du projet (cf. note 4).

3.2.1 Un clavier, pour quoi faire ?

L’acte même de création d’un clavier doit être mûrement réfléchi en fonction de son contexte d’utilisation : s’agit-il de proposer une norme ou de réaliser un clavier adapté aux besoins d’un chercheur particulier ? Dans le premier cas, il conviendra de tenir compte des législations nationales en matière de représentation des caractères de la langue considérée ainsi que du prescrit des normes internationales (Iso-CEI 9 995-8 1994 et Iso-CEI 14 755 1997). Dans le second, on jugera peut-être utile d’adjoindre une série de caractères phonétiques utiles au travail de description envisagé. Quelle que soit la perspective retenue, on devra viser un objectif d’ergonomie susceptible de faciliter la tâche de l’utilisateur.

Dès lors qu’ils entendaient surtout examiner l’intérêt et la viabilité d’une solution Unicode, les partenaires du projet ne se sont pas souciés de produire des claviers destinés à servir de standards pour les langues considérées. À l’exception du clavier balante, spécifiquement conçu pour les besoins de description d’un chercheur particulier, les autres claviers ont été pensés sur la base des impératifs suivants :

  • Disposer les caractères issus de l’alphabet phonétique international à proximité du caractère latin le plus proche : « ƥ » à proximité de « p », « ƭ » près de « t », « ɔ » près de « o », etc.

  • Permettre un usage des caractères propres aux autres langues auxquelles les emprunts sont fréquents (laisser, p. ex., le « q » et le « x » en bambara). Ce choix se heurte toutefois rapidement à la pénurie de touches directement accessibles. Pour conserver les voyelles accentuées du français – mais avec un accès moins direct –, on pourra, par exemple recourir à des combinaisons avec la touche AltGr. Il reste à vérifier si dans un tel cas, le simple basculement d’un clavier à l’autre via un raccourci ne se révèle pas aussi efficace.

  • Permettre un usage du clavier dans le cadre d’un véritable projet éditorial (auteur, journaliste, enseignant, juriste…) : il convient, notamment, de rendre possible un usage des capitales correspondant à chaque lettre de l’écriture prise en compte.


3.2.2 Inventaire des caractères nécessaires

La première démarche consiste à dresser l’inventaire des caractères Unicode qui ne figurent pas sur le clavier français alors qu’ils sont nécessaires pour encoder les textes de la langue considérée. Pour ce faire, on identifiera avec précision les caractères dans les tables Unicode (figure 1). Celles-ci peuvent être visualisées librement sur la toile ou consultées à l’aide d’un petit logiciel dédié36.

On veillera à décrire chaque caractère en minuscule et en capitale dans un document qui précisera :

  • le dessin du caractère ;

  • le nom officiel du caractère ;

  • le bloc Unicode dans lequel il est présent (le plus souvent : Latin de base, Supplément latin-1, Latin étendu-A, Latin étendu-B, Alphabet phonétique international (API) et Lettres modificatives avec chasse) ;

  • sa notation en Unicode ;

  • sa notation sous forme d’entité en XML.




ɲ

Ɲ

nom : lettre minuscule latine N hameçon à gauche

bloc : extensions IPA

notation Unicode : U+0272

entité : ɲ

nom : lettre majuscule latine N hameçon à gauche

bloc : latin étendu B

notation Unicode : U+019D

entité : Ɲ
1   ...   6   7   8   9   10   11   12   13   ...   74

similaire:

Concepts, actions et outils linguistiques iconRapport d’outils Raknet
«Raknet», ce document est donc une explication de certains des principes de «Raknet» ainsi que de ses concepts fondamentaux et comment...

Concepts, actions et outils linguistiques iconParcours Fonctionnements Linguistiques et

Concepts, actions et outils linguistiques iconLes écoles de linguistiques

Concepts, actions et outils linguistiques iconContenus linguistiques: (vocabulaire, grammaire…)

Concepts, actions et outils linguistiques iconObjectifs communicationnels, culturels et linguistiques’

Concepts, actions et outils linguistiques iconAdos le spécialiste des séjours scolaires linguistiques et aventures

Concepts, actions et outils linguistiques iconBts se r V ice s I n f or m a t I qu e s a u X o r g a n I s at I on s
Dans tous les cas, les candidats doivent se munir des outils et ressources techniques nécessaires au déroulement de l’épreuve. Ils...

Concepts, actions et outils linguistiques iconLes outils de développement de Telelogic mettent l’industrie automobile sur la voie du succès
«Les outils Tau de Telelogic ont déjà fait leurs preuves dans le secteur des télécommunications où le zéro défaut est une devenue...

Concepts, actions et outils linguistiques iconMichel Vinaver, Écritures dramatiques, Essais d'analyse de textes de théâtre, Actes Sud, 1993
«lecture au ralenti» consiste dans le pointage des actions d'une réplique à l'autre ou même à l'intérieur d'une réplique, c'est-à-dire...

Concepts, actions et outils linguistiques iconConcepts et Techniques








Tous droits réservés. Copyright © 2016
contacts
ar.21-bal.com