Étiquetage morpho-syntaxique

En linguistique, l'étiquetage morpho-syntaxique (aussi appelé étiquetage grammatical, POS tagging (part-of-speech tagging) en anglais) est le processus qui consiste à associer aux mots d'un texte les informations grammaticales correspondantes comme la partie du discours, le genre, le nombre, etc. à l'aide d'un outil informatique[1],[2].

Exemple

  • Texte original : Nous sommes allées en Bretagne contempler de magnifiques allées couvertes du Néolithique.
  • Texte étiqueté : Nous/PRO:PER sommes/VER:pres allées/VER:pper en/PRP/en Bretagne/NAM contempler/VER:infi de/PRP magnifiques/ADJ allées/NOM couvertes/VER:pper du/PRP:det Néolithique/NAM ./SENT

Logiciels

Les étiqueteurs grammaticaux sont très nombreux pour les langues saxonnes mais plus rares pour le français. Quelques étiqueteurs sont accessibles avec un modèle pour le français prêt à l'emploi comme le TreeTagger, LIA Tagg du Laboratoire informatique d'Avignon, Cordial Analyseur de Synapse Développement ou le Stanford Tagger de l'Université Stanford. De nombreux autres logiciels peuvent fonctionner pour le français mais doivent être entraînés sur un corpus français pré-étiqueté : le French Treebank[3] ou le corpus Sequoia[4] peuvent être utilisés dans ce sens.

Notes et références

  1. Valli A., Véronis J. Étiquetage grammatical des corpus de parole : problèmes et perspectives. Revue française de linguistique appliquée, Vol. 4, No. 2. (1999), pp. 113-133
  2. Adda, G., Mariani, J., Paroubek, P., Rajman, M., & Lecomte, J. (1999). L'action GRACE d'évaluation de l'assignation des parties du discours pour le français. Langues, 2(1), 119-129
  3. http://www.llf.cnrs.fr/Gens/Abeille/French-Treebank-fr.php
  4. https://www.rocq.inria.fr/alpage-wiki/tiki-index.php?page=CorpusSequoia

Liens externes

  • Portail de la linguistique
  • Portail de l’informatique
Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.