Le portique

Nihil novi sub sole !

Accueil > Humanités > Portraits et entretiens > Un dictionnaire automatique en grec ancien...

Un dictionnaire automatique en grec ancien...

jeudi 21 avril 2005, par Robin Delisle

1. Depuis 1990, l’Institut orientaliste de l’UCL s’est lancé dans un projet ambitieux : la création du DAG (Dictionnaire Automatique Grec) ainsi que son avatar, le DDG (Dictionnaire Dérivationnel Grec). Ce projet accompagnait, semble-t-il le TPG (Thesaurus Patrum Graecorum) dont l’objet est de produire une concordance lemmatisée des auteurs grecs patristiques et byzantins. Pouvez-vous faire aux lecteurs du Portique un état des lieux du projet en 2004 ?

Le TPG est une collection de concordances lemmatisées des œuvres des Pères de l’Église et des historiens byzantins. Par lemmatisation, il faut entendre l’étiquetage lexical complet des textes grecs traités, chaque forme rencontrée recevant une adresse lexicale appelée le lemme.

Cette opération d’attribution des lemmes aux formes est assistée par ordinateur. Le vocabulaire des documents soumis à l’analyse est confronté aux données lexicales contenues dans un dictionnaire électronique de référence, en l’occurrence le DAG. Le principe est simple et bien connu dans le domaine du traitement automatique des langues : une forme du texte connue du dictionnaire reçoit automatiquement le lemme qui lui correspond ; une forme non reconnue fait l’objet d’un traitement manuel ultérieur assumé par un philologue. Après vérification et validation de l’ensemble des résultats, les données lexicales nouvelles, lemmes et formes, sont intégrées dans le DAG, les analyses suivantes reprennent ainsi sur des bases lexicales de plus en plus larges.

Cette méthode engendre deux problèmes : le premier concerne l’ambiguïté lexicale, car une même forme peut relever de plusieurs mots différents ; le second concerne la définition du rapport entre un lemme et sa forme, car le grec ancien est soumis à un grand nombre de variations, flexionnelles, bien sûr, mais aussi dialectales, phonologiques, etc., variations conditionnées par le genre littéraire, l’époque ou le niveau de langue auquel le texte est attaché. La question est donc de déterminer quand l’évolution formelle d’un mot justifiera ou non la création d’un nouveau lemme.

Le traitement des ambiguïtés lexicales exige de comprendre le texte pour attribuer le bon lemme à une forme répondant à plusieurs analyses. Dans certains cas, l’automatisation de la levée de l’ambiguïté est possible. Une interface d’aide à la lemmatisation est actuellement en cours de création. Elle déterminera, sur base d’une analyse syntaxique du contexte, quel est le lemme le plus probable pour une forme ambiguë.

L’autre problème a imposé aux concepteurs du projet une réflexion approfondie sur les principes de lemmatisation. Les sources abordées s’étendent chronologiquement du VIe s. ap. J.-C. à la fin de l’époque byzantine. Durant cette période, un grand nombre d’évolutions modifie les structures de la langue grecque, à tous les niveaux, flexionnel, lexical, syntaxique. Quelles soient patristiques ou historiographiques, les sources étudiées, réputées « tardives », se caractérisent cependant par une langue classicisante car le grec littéraire des Byzantins, quoique perméable aux innovations, reste imprégné du classicisme antique qui lui sert de modèle. Deux conséquences en découlent : il est tout à fait possible, malgré les variations formelles rencontrées, de s’en tenir à des principes stables de lemmatisation, le grec classique pouvant servir de norme ; ensuite, ainsi conçu, l’outil peut de plus être utilisé pour l’analyse de sources d’autre nature, appartenant à d’autres genres littéraires ou à d’autres époques, y compris les textes classiques du Ve s. av. J.-C.

Le TPG rassemble donc les concordances lemmatisées des auteurs ou des ensembles textuels choisis. Quinze volumes sont disponibles à ce jour. Les concordances en elles-mêmes, pour des raisons pratiques, ont été jusque maintenant produites sur microfiches. Le matériel lexical collationné dans ces volumes se retrouve, sous un format électronique, dans le DAG qui, ainsi, ne cesse d’accroître ces connaissances et couvre un vocabulaire de plus en plus vaste. Il rassemble à ce jour 174.758 formes différentes classées sous 33.874 lemmes. Mis bout à bout, les textes analysés et en cours de traitement représenteraient un corpus totalisant 4.284.343 mots.

Le dictionnaire constitue donc en définitive le cœur d’un projet à la croisée de la lexicologie, car il s’agit de définir les unités lexicales du grec ancien, et de la lexicographie, car il s’agit d’insérer ces unités dans une description exhaustive et cohérente du lexique de la langue. Les dictionnaires existant, fondés sur d’autres principes et d’autres finalités, n’assument jamais complètement ces deux exigences. Seule une telle démarche, qui assure une définition stable de la notion de mot, autorisera des approches quantitatives et qualitatives rigoureuses du vocabulaire des textes.

Les développements actuels poursuivent deux objectifs. Ils visent d’abord à intégrer le DAG dans une interface moderne de traitement automatique des langues. Le travail consiste alors à adapter au grec ancien des outils informatiques initialement conçus pour le traitement des langues modernes. Le second est de diffuser les concordances sous un format électronique, via une interface web, ce qui procurera aux utilisateurs des données dynamiques, adaptables à la nature de leurs interrogations. Cet outil bénéficiera d’un système propre de saisie des questions et d’affichage des réponses, en grec polytonique, sans qu’il soit nécessaire d’installer sur son poste personnel un nouveau gestionnaire de clavier. À terme, cette réalisation remplacera les microfiches du TPG.

Quant au DDG, permettant d’interroger le DAG sur base des morphèmes constitutifs des lemmes, il relève de la morphologie dérivationnelle. Une de ces applications actuelles est de fournir aux utilisateurs toutes les entrées lexicales apparentés au lemme faisant l’objet d’une interrogation. Les données statiques diffusées sur microfiches suffisent pour rechercher un mot connu de l’utilisateur. Les interfaces d’interrogation du DDG offrent plus, car les mots apparentés formellement aux mots recherchés, pour autant qu’ils existent dans le DAG, sont proposés à l’utilisateur aux côtés des réponses attendues. À cette date, le tiers des lemmes du DAG a reçu une analyse morpho-lexicale complète.

2. L’UCL est connue pour mettre en oeuvre massivement les nouvelles technologies dans sa pédagogie (à preuve, les Itinera elctronica de votre confrère Jean Schumacher, par exemple). Utilisez-vous le DDG et le DAG avec des étudiants ? Pouvez-vous donner des exemples de cours ou de recherches effectuées à l’aide de tels outils ?
3.Votre outil est impressionnant : la possibilité de faire des recherches via une classe morpho-syntaxique devrait intéresser au plus haut point des professeurs désireux de construire un cours de grammaire à partir de textes authentiques. Envisagez-vous d’ouvrir votre projet au secondaire francophone ? Dans ce cas, ne faut-il pas envisager de mettre en ligne d’autres textes que ceux de la patristique grecque ?
4. Comment les autorités pédagogiques belges (officielles ou non) réagissent à la mise en place d’un projet aussi novateur : disposez-vous par exemple de subventions du Ministère ? Des articles dans les revues pédagogiques spécialisées sont elles écrites ?

Dans son état actuel, le projet réuni trois collaborateurs. Il demeure une entreprise dirigée à l’Institut orientaliste de l’UCL par le Professeur Bernard Coulie. Les développements informatiques sont assurés en concertation avec le CENTAL (Centre de traitement automatique des langues), laboratoire d’informatique linguistique dirigé par le Professeur Cédrick Fairon. La production et la diffusion commerciale des volumes du TPG sont assurées par la maison d’édition Brepols Publishers installée à Turnhout. Nos travaux ne sont pour l’instant diffusés que dans les milieux académiques. Des collaborations extérieures sont recherchées pour produire les Thesauri. Actuellement, des universitaires de Leuven (Belgique), Fribourg (Suisse), Rome et Lecce (Italie) ont la charge d’un ou de plusieurs volumes. Des rapprochements ont été effectués avec les professeurs de langues anciennes afin de voir comment ces matériaux pourraient profiter à d’autres personnes qu’aux seuls souscripteurs du TPG. C’est dans ce sens aussi que les développements en cours ont été décrits dans un article qui paraîtra dans la livraison 2004 de la revue L’Antiquité Classique. Seul notre emploi du temps nous empêche actuellement de diversifier nous-mêmes nos applications et d’élargir le nombre des utilisateurs. On imagine pourtant sans peine l’intérêt d’un manuel de vocabulaire grec présentant de manière dynamique les dérivées ou les composés d’un mot. Les concordances des formes et des lemmes pourraient faire l’objet de nombreuses applications didactiques utilisables, par exemple, dans le secondaire, à l’Instar d’un Collatinus ou des Crustula d’Yves Ouvrard, pour le latin. Nos ressources sont par ailleurs d’ores et déjà mis à la disposition d’étudiants en philologie classique qui souhaitent en tirer partie dans le cadre de leur recherche de fin d’étude. Dans un cas précis, elles ont été utilisées sur une pièce d’Eschyle étudiée sous un angle sociolinguistique.

Les données chiffrées, les éléments bibliographiques, Les descriptions des applications développées et les liens vers les partenaires sont mentionnés sur le site Internet du projet à l’adresse suivante : http://tpg.fltr.ucl.ac.be.