Collection Pangloss

La collection Pangloss est une bibliothèque numérique développée par le laboratoire LACITO du CNRS à Paris. Son objectif est de rassembler des enregistrements sonores en diverses langues du monde — la plupart menacées d'extinction – et de les rendre accessibles à un large public[1].

«  Pangloss (collection) » redirige ici. Ne pas confondre avec Pangloss, personnage de Voltaire.

La collection offre un libre accès en ligne à des documents de divers types (contes et légendes, récits de vie, témoignages d'artisans, enquêtes lexicales ou phonologiques, etc.) dans des langues de tous les continents[2]. Elle accueille également des dictionnaires.

En février 2018, la collection Pangloss contenait 3 559 enregistrements[3] dans 170 langues[4].

Principes

Une archive sonore avec transcriptions synchronisées

La collection Pangloss donne accès à des enregistrements originaux. Certains d'entre eux possèdent des transcriptions (phonétique, phonologique, et/ou orthographique, selon les cas) et traductions[5]. Chaque document est enregistré dans son contexte culturel, et transcrit en collaboration avec des locuteurs natifs, selon les méthodes d'enquête et description de langues à tradition orale[6].

Dictionnaires

Outre les enregistrements sonores, la collection Pangloss héberge également des dictionnaires depuis 2002[7]. En 2017, la collection de dictionnaires de la collection Pangloss a adopté le nom « Lexica »[8].

Architecture de l'archive ouverte

Les données archivées sont structurées dans un format ouvert, et peuvent être téléchargées (pour certaines, sous licence Creative Commons). Le logiciel utilisé pour préparer et diffuser les ressources est en libre accès (code open-source). "La Collection Pangloss s’est appuyée très tôt sur les technologies – comme l’écosystème XML – qui sont maintenant au cœur des humanités numériques"[9].

La collection Pangloss est un membre du réseau OLAC d'archives linguistiques et du réseau DELAMAN d'archives de langues en danger[10].

La collection Pangloss est définie comme une des collections de CoCoON (pour « COllections de COrpus Oraux Numériques »), plate-forme technique qui accompagne les producteurs de ressources orales dans la création, la structuration et l'archivage de leurs corpus[11]. Les données sont archivées dans l'archive de la Très Grande Infrastructure de Recherche Huma-Num.

Historique

En 2001, le « programme Archivage du LACITO » comptait une centaine de documents dans une vingtaine de langues[5]. En 2011, la collection Pangloss comptait environ 1 000 enregistrements en 67 langues, dont 350 documents transcrits et annotés[12]. En 2014, elle comptait 1 400 enregistrements, dont environ 400 documents transcrits et annotés[2]. En octobre 2016, elle comptait 132 langues[13]. En février 2018, la collection Pangloss atteignait 3 559 enregistrements[3] en 170 langues[4], fin 2020 plus de 3 600[14].

En 2021, un logiciel de traitement automatisé du langage doit faciliter la tâche de transcription et d'archivage, une heure devant désormais suffire au lieu d'une centaine antérieurement[15].

Références

  1. Présentation de la Collection Pangloss (site du LACITO).
  2. Michailovsky, Boyd, Martine Mazaudon, Alexis Michaud, Séverine Guillaume, Alexandre François & Evangelia Adamou. 2014. Documenting and researching endangered languages: the Pangloss Collection. Language Documentation and Conservation 8. 119–135. http://hdl.handle.net/10125/4621
  3. Voir la liste de toutes les ressources Pangloss sur le site de l'hébergeur “CoCoON” (accès 25 février 2018).
  4. Nombre des entrées dans la liste des langues représentées sur Pangloss (accès 25 février 2018).
  5. (en) Michel Jacobson, Boyd Michailovsky et John B. Lowe, « Linguistic documents synchronizing sound and text », Speech Communication, vol. 33, nos 1-2, , p. 79–96 (DOI 10.1016/s0167-6393(00)00070-4, lire en ligne, consulté le )
  6. Bouquiaux, Luc & Jacqueline Thomas. 1971. Enquête et description des langues à tradition orale. Deuxième édition 1976. Paris: Société d’études linguistiques et anthropologiques de France.
  7. Jacobson, Michel & Boyd Michailovsky. 2002. Linking linguistic resources: time aligned corpus and dictionary. International Workshop on Resources and Tools in Field Linguistics. Las Palmas.
  8. Bonnet, Rémy, Céline Buret, Alexandre François, Benjamin Galliot, Séverine Guillaume, Guillaume Jacques, Aimée Lahaussois, Boyd Michailovsky & Alexis Michaud. 2017. Vers des ressources électroniques interconnectées: Lexica, les dictionnaires de la collection Pangloss. Actes des 9èmes Journées Internationales de la Linguistique de corpus, 48–51. Grenoble: Université Grenoble Alpes.
  9. Sylvain Loiseau, « La Collection Pangloss : une archive des langues du monde », sur http://www.inalco.fr/, Itinéraire(s) - La lettre de la recherche et de l'international (INALCO), (consulté le )
  10. (en) « Digital Endangered Languages and Musics Archives Network » (consulté le )
  11. « Collections de Corpus Oraux Numériques » (consulté le )
  12. Michailovsky, Boyd, Alexis Michaud & Séverine Guillaume. 2011. A simple architecture for the fine-grained documentation of endangered languages: the LACITO multimedia archive. Keynote speech at Oriental-COCOSDA 2011, October 26th-28th, 2011. Hsinchu, Taiwan.
  13. « Collection Pangloss - FAQ » (consulté le )
  14. Combien de langues sont représentées sur Pangloss ?
  15. Laure Cailloce, « Pangloss, à l’écoute des langues rares », sur Journal du CNRS, (consulté le ).

Liens externes

  • Sciences de l’information et bibliothèques
  • Portail de l’édition numérique
Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.