Lemmatisation

La lemmatisation désigne un traitement lexical apporté à un texte en vue de son analyse. Ce traitement consiste à appliquer aux occurrences des lexèmes sujets à flexion (en français, verbes, substantifs, adjectifs) un codage renvoyant à leur entrée lexicale commune (« forme canonique » enregistrée dans les dictionnaires de la langue, le plus couramment), que l'on désigne sous le terme de lemme.

Généralités

Les lexèmes (lemmes) d'une langue connaissent éventuellement plusieurs formes en fonction de leur genre (masculin ou féminin), leur nombre (un ou plusieurs), leur personne (moi, toi, eux...), leur mode (indicatif, impératif...). On rencontre ainsi plusieurs formes pour un même lemme. On désigne ces formes comme des flexions, ou formes fléchies.

La lemmatisation d'une forme occurrente est l'application à cette forme d'un codage permettant d'identifier son lemme. En général on emploie comme lemme la forme canonique permettant de repérer le lexème dans les dictionnaires courants de la langue en question. En français par exemple, pour un verbe son infinitif, pour un substantif son singulier, pour un adjectif son masculin-singulier. Mais en latin, on aura le plus souvent recours, par convention, à la forme de la 1ère personne du singulier du présent de l'indicatif.

Toutes les entrées d'un dictionnaire sont donc répertoriées (dans un ordre alphabétique notamment ou comme cibles dans une perspective hypertextuelle Wikipédia par exemple, en tant que lemmes. Les exemples, citations, qui alimentent l'article contiennent des formes fléchies.

Exemples :

  1. Le lemme petit renvoie à 4 formes fléchies : petit, petite, petits, petites
  2. Le lemme aimer renvoie à un grand nombre de formes fléchies, d'autant plus grand que l'on prend en compte les formes composées a aimé, a été aimé, a été aimée, etc.

Une même forme graphique (occurrence) peut, elle, renvoyer à deux ou plusieurs lemmes différents.

Exemples :

  1. Porte renvoie selon les contextes au verbe porter, au substantif féminin porte, voire à l'adjectif porte dans le composé veine porte
  2. L'occurrence voile peut renvoyer au verbe voiler, au substantif féminin voile, ou au substantif masculin homographe voile
  3. L'occurrence volant peut envoyer aux deux verbes homographes voler, au substantif volant et à l'adjectif homographe volant...

Conception et technologie

Longtemps[Quand ?] la lemmatisation a consisté à fabriquer un artefact du texte où les lemmes remplaçaient carrément les formes occurrentes fléchies. Les étoiles claires luisent dans la nuit noire devenait la étoile clair luire dans la nuit noir. Les scripts logiciels analysaient séparément les deux versions. Avec la généralisation d'HTML et surtout de XML, il est possible d'aligner les versions lemmatisées et brutes, sous forme de colonnes parallèles

Exemple :
Les / la
étoiles /étoile
claires / clair
luisent / luire
dans / dans
la / la
nuit / nuit
noire / noir

puis d'intégrer dans un même conteneur XML diverses informations sur l'occurrence, dont sa forme graphique occurrente et son lemme. <w form="claire" lemma="clair"> par exemple.

Usage en informatique textuelle ou analyse de texte assistée, ou textométrie

En informatique textuelle ou en textométrie, il est impossible à un programme informatique de regrouper sans recourir à des ressources externes ou à un marquage-codage interne au fichier-texte les flexions d'un même lemme, et plus encore de distinguer les valeurs lexicales de formes identiques (« volant, voile, porte… »). La lemmatisation est donc une opération préliminaire pour une reconnaissance linguistiquement fondée des constituants d'une phrase. La lemmatisation « conservatrice » permise par l'encodage XML autorise la recherche à se porter aussi bien sur les lemmes que sur leurs formes fléchies (par exemple si l'on souhaite distinguer la liberté de les libertés).

Voir aussi

Articles connexes


  • Portail de la linguistique
  • Portail de l’informatique
Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.