Triplet RDF

RDF est un modèle qui organise de façon logique l’information pour décrire la sémantique des informations. Il fournit un formalisme qui permet d’exprimer toute information sous la forme d’une phrase simple, déclaration ou assertion RDF, “sujet - verbe - complément” ou plus précisément “sujet - prédicat - objet”[1]. Le triplet suit cette structure de données standard en trois éléments et représente cette déclaration [2] ou assertion RDF.

Pour les articles homonymes, voir Triplet.

Le triplet exprime une relation entre deux ressources.[3] L'objectif de RDF est de permettre à des machines d'interpréter la nature des relations entre les données, identifiées par des URI, dans le but d'assurer leur interopérabilité sur le web.

Exemple :

Sujet Prédicat Objet
<La Joconde> <a pour créateur> <Léonard de Vinci>
Déclaration RDF

Description

Schéma du triplet RDF.

Le triplet représente une "déclaration utilisée par RDF, consistant juste en la propriété, l'identificateur de ressource, et la valeur de la propriété dans cet ordre"[4].

Les parties du triplet RDF sont les suivantes :

  • Le sujet représente la ressource ou l'identificateur de la ressource à décrire.
  • Le prédicat représente un type de propriété applicable à cette ressource. Il est lui-même une ressource.
  • L'objet représente la valeur de la propriété : une ressource ou un littéral (c'est-à-dire une chaîne de caractères, nombre, date etc.)[5].

Le sujet et l'objet, dans le cas où ce sont des ressources, peuvent être identifiés par un URI ou être des nœuds anonymes. Le prédicat est nécessairement identifié par un URI. On distingue les propriétés d’objet qui relient 2 ressources entr’elles (object property), sujet et objet sont des URI et les propriétés de types de données (datatype property) qui relient une ressource à un littéral (le sujet est un URI, l’objet une chaîne de caractère).


En RDF, toutes les ressources sont identifiées par des URI. L’URI (Universal Resource Identifier) est un format d’identifiant unique qui sert à nommer toute chose sur le web sans ambiguïté et de façon perenne. Ils fondent l’existence sur le web de ces choses décrites par les triplets RDF, car elles deviennent des "ressources" exploitables par les machines, à l’inverse des chaînes de caractères (littéraux), lisibles par les humains. Les URI constituent le socle du web sémantique, car elles identifient des entités (données) et non plus des documents, comme les URL. Elles vont permettre des déclarations (triplets RDF) sur ces entités et les rendre interopérables pour les machines grâce au modèle de description RDF.

La déclaration RDF "Mona Lisa a pour créateur Léonard de Vinci" peut s'écrire sous forme de triplet RDF avec les URI extraits du référentiel Wikidata.

Sujet Prédicat Objet
<Mona Lisa> <créateur> <Léonard de Vinci>
<http://www.wikidata.org/entity/Q12418> <http://www.wikidata.org/prop/direct/P170> <http://www.wikidata.org/entity/Q762>

Une autre déclaration ayant le même sujet "Mona Lisa a pour lieu le Musée du Louvre" peut s'écrire sous forme de triplet RDF :

Sujet Prédicat Objet
<Mona Lisa> <lieu> <Musée du Louvre>
<http://www.wikidata.org/entity/Q12418> <http://www.wikidata.org/entity/P276> <http://www.wikidata.org/entity/Q19675>

La notation des URI est simplifiée par des préfixes. Ceux-ci remplacent les débuts d’URI communs à plusieurs URI (espace de noms). On utilise alors des URI simplifiés dans les triplets RDF en faisant suivre le préfixe de la partie de l’URI propre à chaque ressource.

Les préfixes désignent un espace de noms (espace de nommage ou namespace), c’est à dire une ensemble de termes se rapportant au même vocabulaire RDF (ontologies RDF, schéma RDFS, langage OWL). Ces vocabulaires RDF fournissent les URI qui identifient les propriétés des triplets RDF et les classes (ou catégories) des choses décrites dans les triplets RDF.

Les préfixes peuvent varier d’une institution à l’autre. On peut écrire dc:title ou dcterms:title, ce qui revient à écrire <http://purl.org/dc/terms/title> dans l’ontologie Dublin Core, cela n’a pas d’importance, seuls les URI complets sont interprétés par les machines.

Dans le référentiel Wikidata, le début d’URI <http:www.wikidata.org/entity> pour nommer une entité (sujet ou objet du triplet) est associé au préfixe <wd:> et le début d’URI <http:www.wikidata.org/prop/direct/> pour nommer la propriété du triplet est associé au préfixe <wdt:>.

Ainsi, les deux déclarations RDF "Mona Lisa a pour créateur Léonard de Vinci" et "Mona Lisa a pour lieu le Musée du Louvre" s'écrivent sous forme des triplets RDF suivant :

Sujet Prédicat Objet
<Mona Lisa> <créateur> <Léonard de Vinci>
<wd:Q12418> <wdt:P170> <wd:Q762>
<Mona Lisa> <lieu> <Musée du Louvre>
<wd:Q12418> <wdt:P276> <wd:Q19675>

Ces deux triplets RDF ayant le même sujet forment un graphe.

Représentation graphique

RDF propose de représenter les triplets sous la forme d'un graphe :

  • Un ovale ou ellipse représente une ressource (avec à l’intérieur de cet ovale l’URI de la ressource),
  • Un arc orienté (flèche) représente un prédicat (le nom du prédicat se trouve sur l’arc)
  • Un rectangle représente une valeur (précisée à l’intérieur de ce rectangle)[6].

La figure 1 est un graphe RDF représentant la déclaration « La ressource http://example.org/123 a son titre "Learning Biology" en anglais ».

Fig. 1 Graphe RDF (Dublin Core Metadata Initiative)

Ce graphe utilise les propriétés de l'ontologie Dublin Core, selon les recommandations de la Dublin Core Metadata Initiative[7].

Fig. 2 Graphe de deux triplets RDF

La figure 2 représente les graphes de deux triplets dont les deux objets sont des ressources :

<Mona Lisa> <a pour créateur> <Léonard de Vinci>.

<Mona Lisa> < a pour lieu> <Musée du Louvre>.

Les deux triplets sont reliés entre eux par un nœud, la ressource <Mona Lisa> est le sujet des deux triplets.

Fig. 3 Graphe de deux triplets avec littéral

La figure 3 représente les graphes de deux triplets dont l'objet de l'un est un littéral (chaîne de caractères) :

<Charles Darwin> <a écrit> <De l’origine des espèces>.

<De l’origine des espèces> < a pour date > « 1859 ».

Les deux triplets sont reliés entre eux par un nœud <De l’origine des espèces>, qui est l’objet de l’un et le sujet de l’autre.

Une même ressource donc être sujet, prédicat ou objet dans plusieurs triplets. L’ensemble de ces triplets, reliés les uns aux autres par les URI qu’ils ont en commun, forme un graphe.

Cette notion de graphe implique que des triplets concernant une même ressource, par exemple <Mona Lisa> ou <De l'origine des espèces> peuvent faire partie de graphes différents, mais peuvent être reliés par un URI commun, correspondant à la ressource <Mona Lisa> ou <De l'origine des espèces>.

Il est possible de créer des liens entre graphes isolés, représentant des jeux de données différents, à partir du moment où ils utilisent un modèle commun, le RDF, c’est à dire qu’ils expriment toute information sous la forme d’un triplet RDF.

Des référentiels communs à ces jeux de données, fournissent des réservoirs d’URI. Grâce aux URI, il est possible de naviguer d’un graphe à l’autre, d’un jeu de données à l’autre, suivant le principe de l’hypertexte. Les URI vont être des points de contact entre ces graphes isolés et les transformer en un graphe global.

Triplets RDF et données des bibliothèques

L’objectif de la transition bibliographique est de rendre plus visible les données des catalogues de bibliothèques dans le web. Pour cela, les catalogues des bibliothèques doivent adopter les principes du web de données :

- identifier leurs données par des URI, exploitables par des machines,

- décrire leurs données en suivant le modèle RDF pour établir des liens sémantiques entre elles, c’est à dire sous forme de triplets RDF.

Dans les catalogues de bibliothèques, ces données décrites dans les triplets RDF sont les entités que l’on a définies dans le modèle FRBR-LRM (res, œuvre, expression, manifestation, item, agent, personne, groupe, lieu, laps de temps, nomen)[8].

L’enjeu pour les catalogues est de créer, grâce à leur intégration dans un graphe global d’information, le web de données, et à l’usage de référentiels communs, un cadre d’interopérabilité entre ces catalogues.

Le Library Linked Data Incubator Group du W3C (LLD XG)[9] a été créé par le W3C en 2010 pour étudier l’adoption du Web de données en bibliothèque. Il a relié les notions du domaine des bibliothèques à celles de la communauté du web de données et a classé ces référentiels communs (jeu de données réutilisables et échangeables) en 3 catégories :

Des ontologies (vocabulaires RDF) spécifiques aux données des bibliothèques

  • l’ontologie SKOS (Simple Knowledge Organization System) a été créée pour décrire les thésaurus et les vocabulaires contrôlés. Elle sert à représenter Rameau ou les LCSH. Les autorités Rameau sont décrites sous format RDF dans data.bnf.fr grâce à cette ontologie.
  • l’ontologie FOAF sert à décrire les personnes et les organisations,
  • l’ontologie Dublin Core metadata terms sert à décrire les documents,
  • des ontologies RDF servent aussi à exprimer les règles de catalogage RDA et le modèle IFLA-LRM.

SKOS, ontologie pour décrire les thésaurus et vocabulaires contrôlés

SKOS est un vocabulaire RDF dont l’objet est de fournir un modèle commun pour la description des thésaurus, systèmes de classifications et de lier ces référentiels. Des triplets RDF créent des alignements d’une autorité Rameau de la BnF avec d’autres référentiels (Wikidata, Library of Congress Subject Headings, Schlagwortnormdatei). Ils décrivent aussi les liens hiérarchiques des notices d’autorité ou les notes de contenu.

Les données de référence du Répertoire d'autorité RAMEAU sont disponibles sur data.bnf.fr depuis février 2012[10]. Ainsi, dans la notice Nom Commun Culture , des exemples de triplets d’alignements, de déclaration de hiérarchie et de note de contenu, à l'aide des propriétés de l'ontologie SKOS, peuvent être extraits :

  • Trois triplets déclarant des alignements entre référentiels Rameau, Schlagwortnormdatei, Wikidata, Library of Congress Subject Headings, à l’aide des propriétés skos:closeMatch ou skos:exactMatch :
Sujet Prédicat Objet
<https://data.bnf.fr/ark:/12148/cb11931827z> skos:closeMatch <http://d-nb.info/gnd/4125698-0>
<https://data.bnf.fr/ark:/12148/cb11931827z> skos:exactMatch <http://wikidata.org/entity/Q11042>
<https://data.bnf.fr/ark:/12148/cb11931827z> skos:closeMatch <http://id.loc.gov/authorities/subjects/sh85034755>
  • Triplets déclarant un lien hiérarchique à l’aide de la propriété skos:narrower (relation Terme spécifique) et la note de contenu à l’aide de la propriété skos:scopeNote :
Sujet Prédicat Objet
<https://data.bnf.fr/ark:/12148/cb11931827z> skos:narrower <https://data.bnf.fr/ark:/12148/cb11965560j>
<https://data.bnf.fr/ark:/12148/cb11931827z> skos:scopeNote "Sous cette vedette, on trouve les documents sur l'ensemble des valeurs, des fa\u00E7ons de vivre et de penser qui peuvent \u00EAtre acquises, apprises et transmises et qui d\u00E9finissent un groupe, une soci\u00E9t\u00E9 par rapport \u00E0 un autre. Les documents sur les cultures (au sens de plantes et terres cultiv\u00E9es) se trouvent sous les vedettes commen\u00E7ant par Cultures ; Agriculture ; etc."

SKOS est un modèle générique de représentation de vocabulaires contrôlés. Pour décrire des relations plus spécifiques (subdivision, vedettes construites), il faut faire appel à d’autres ontologies comme MADS/RDF, FRAD, FRSAD et les métadonnées de RDA.

Référentiels d'autorité et interopérabilité

Il existe deux modèles structurels d’interopérabilité pour les vocabulaires contrôlés : pivot et paire. L’alignement de référentiels par paire concerne les référentiels des vedettes matières des bibliothèques (Rameau, LCSH, GND allemandes) sont reliées par paires.[11],[12]

Dans le référentiel VIAF[13], le modèle d’alignement est celui de la roue et de l’essieu (hub and spoke) : un point central (essieu ou pivot) consolide les données d’autorité des bibliothèques (roue): un référentiel sert de pivot.

VIAF relie tous les identifiants des autorités des bibliothèques et d’autres référentiels (ISNI, DBpedia) par la relation d’équivalence schema:sameAs de l’ontologie schema.org. Cette ontologie a été définie en 2011 par Google, Bing et Yahoo ! pour disposer d’informations structurées et permettre de mieux répondre aux questions posées par les internautes.

Exemple de triplet déclarant l’équivalence entre l’identifiant VIAF et l’identifiant ISNI de l’autorité « Hugo, Víctor, 1802-1885 » dans la notice VIAF affichée en RDF :

Sujet Prédicat Objet
<http://viaf.org/viaf/9847974> schema:sameAs <http://isni.org/isni/0000000121200982>

Dans les notices d’autorité des bibliothèques nationales ou collectifs (Sudoc), la relation d’équivalence avec l’identifiant VIAF est empruntée au langage de description des ontologies OWL qui peut déclarer des ressources équivalentes grâce à la propriété owl:sameAs, préfixe de <http://www.w3.org/2002/07/owl#sameAs>. Ce langage de description des ontologies OWL joue un rôle important dans le web sémantique et le web de données, car il permet l’alignement des des données d’autorité de jeux de données différents.

Exemple de triplet déclarant l’équivalence entre l’identifiant de data.bnf.fr de l’autorité « Hugo, Víctor, 1802-1885 » et l’identifiant VIAF dans la notice d’autorité de data.bnf.fr affichée en RDF/XML :

Sujet Prédicat Objet
<https://data.bnf.fr/ark:/12148/cb11907966z#about> owl:sameAs <http://viaf.org/viaf/9847974>

Exemple de triplet déclarant l’équivalence entre l’identifiant d’idref.fr de l’autorité « Hugo, Víctor, 1802-1885 » et l’identifiant VIAF dans la notice d’autorité d’idref.fr exportée en RDF :

Sujet Prédicat Objet
<http://www.idref.fr/026927608/id> owl:sameAs <http://viaf.org/viaf/9847974>

Jeux de données de référence en France : data.bnf.fr et data.idref.fr

En France, des jeux de données de référence (data.bnf.fr, data.idref.fr) permettent d’intégrer les données des catalogues dans le web de données.

Data.bnf.fr

Créé  en  2011  par  la  Bibliothèque  nationale  de  France  (BnF), Data.bnf.fr expose les données de la BnF en RDF, pour améliorer leur visibilité sur le web en adoptant les principes du web sémantique : structure des données en triplets RDF et identification de celles-ci par de URI [14].

Les entités du modèle FRBR sont reliées par des triplets RDF. Les URI des ressources sont les liens pérennes ark. Une partie des données est alignée à des jeux de données ou référentiels extérieurs : VIAF, Idref, Wikidata.

Un schéma permet de visualiser le modèle de données RDF de data.bnf.fr.[15]

Le modèle de données de data.bnf.fr

Il présente des triplets RDF pour décrire les relations entre les entités oeuvre, auteur, manifestation, expressions, concept, lieu, date, spectacle. Les propriétés sont décrites en empruntant à l’ontologie Dublin Core : dc:creator, dc:contributor. Suivant le formalisme graphique de RDF, les ressources sont ces entités désignées par des URI. Les entités ressources sont représentées par des ovales, les littéraux par des rectangles. Les ontologies sont utilisées pour décrire les autorités personnes et organisations (FOAF), sujets (SKOS), les œuvres, expressions, manifestations (FRBR-RDA), et d’autres données, comme l’indice Dewey (rdaGroup2Elements). Les jeux de données sont désignés par des rectangles fléchés et les préfixes utilisés pour décrire les URI indiqués en bas du modèle.

Exemple de triplet dans une notice d’oeuvre On the origin of the species by means of natural selection de Charles Darwin de data.bnf.fr :

Sujet Prédicat Objet
<https://data.bnf.fr/ark:/12148/cb122870840#about> dcterms:creator <https://data.bnf.fr/ark:/12148/cb11898689q#about>
Data.idref.fr

Depuis octobre 2010, les notices d'autorité d'IdRef sont accessibles sur le Web de données en RDF.[16],[17]

Des triplets sont extraits d'une notice IdRef : http://www.idref.fr/026927608.rdf

· Le premier triplet indique que la ressource identifiée par l'URI http://www.idref/026927608/id est de type Personne.

· Le suivant contient le nom et le prénom de cette personne.[18]

Sujet Prédicat Objet
<http://www.idref.fr/026927608/id> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://xmlns.com/foaf/0.1/Person>
<http://www.idref.fr/026927608/id> <http://xmlns.com/foaf/0.1/name> "Hugo, Victor"
Le Sudoc en RDF[19]

Les notices bibliographiques du Sudoc sont accessibles depuis 2011 sur le Web de données en RDF.

Exemple dans une notice Sudoc sous format RDF/XML :

Sujet Prédicat Objet
< http://www.sudoc.fr/139579370/id> <http://purl.org/dc/elements/1.1/title> « Le roman de la rose Tome I, [Texte imprimé] / Guillaume de Lorris et Jean de Meun ; publié par Félix Lecoy»
< http://www.sudoc.fr/139579370/id> <http://www.loc.gov/loc.terms/relators/aut> <http://www.idref.fr/02665976X/id>

Ces deux triplets ont pour même sujet le document Le roman de la Rose de Jean de Meung, identifié par son URI <http://www.idref.fr/02665976X/id>. Le premier triplet a pour objet le titre du document. Le second triplet a pour objet l'auteur du document.

Sujet Prédicat Objet
<http://www.idref.fr/02665976X/id> <http://xmlns.com/foaf/0.1/name> "Jean de Meung (124.?-1304?)"
Le triplestore data.idref.fr

Ces trois triplets forment donc un graphe. Le triplet est l'unité de données la plus petite contenue dans un graphe de type RDF (Resource Description Framework) au sein d'une base de données de type triplestore.

Graphe de triplets RDF

En 2020, le triple store data.idref.fr expose environ 165 millions de triplets RDF : 4 millions de notices d’autorités reliées par des liens diversifiés aux 13 millions de références bibliographiques Sudoc[20].

Dans le triple store d'IdRef, les notices d’autorité IdRef et les références bibliographiques liées, en provenance du Sudoc, sont converties sous la forme de triplets RDF. Tous les types de notices d'autorité sont présents : Personnes, Collectivités, Noms Communs (Rameau et FMeSH), Noms géographiques, Familles et Titres.

Les références bibliographiques se présentent sous la forme d’URI : http://www.sudoc.fr/PPN/id. Ces références bibliographiques pointent vers les autorités. Cela signifie que les triplets des liens bibliographiques ont pour « sujet » les URI des références Sudoc et pour « objet » les URI des autorités IdRef.[21]

Les déclarations RDF suivantes sont modélisés dans la notice RDF, la date et le titre étant des littéraux :

On the Origin of species by means of natural selection, or the preservation of favoured races in the struggle for life / by Charles Darwin,...  a pour auteur <Charles Darwin>, 
On the Origin of species by means of natural selection, or the preservation of favoured races in the struggle for life / by Charles Darwin,...  a pour date "1859".
On the Origin of species by means of natural selection, or the preservation of favoured races in the struggle for life / by Charles Darwin,...  a pour titre "On the Origin of species by means of natural selection, or the preservation of favoured races in the struggle for life / by Charles Darwin,..."
Sujet Prédicat Objet
<https://www.sudoc.fr/237242338/id > marcrel:aut <http://www.idref.fr/026812304/id>
<https://www.sudoc.fr/237242338/id > dc:date "1859"
<https://www.sudoc.fr/237242338/id > dc:title "On the Origin of species by means of natural selection, or the preservation of favoured races in the struggle for life / by Charles Darwin,..."

Voir aussi

Notes et références

  1. Bermès Emmanuelle, Le Web sémantique en bibliothèque. avec la collaboration d’ Isaac Antoine, Poupeau Gautier. Éditions du Cercle de la Librairie, « Bibliothèques », 2013, lire en ligne, p. 39
  2. (en) « Help:Statements - Wikidata », sur www.wikidata.org (consulté le )
  3. Antoine Zimmermann, « « Initiation à RDF 1.1 » : note de groupe de travail du W3C du 24 juin 2014 (traduite le 28 août 2018) », sur W3C, (consulté le )
  4. « Resource Description Framework (RDF) Model and Syntax Specification ». Consulté le 20 juillet 2021. https://www.w3.org/TR/PR-rdf-syntax/#glossary. Spécification (1999) [archive], traduite en français.
  5. « Initiation à RDF », sur www.yoyodesign.org, (consulté le )
  6. Delestre, Nicolas, Nicolas Malandain, et Michel Bussi., Du web des documents au web sémantique, Bois-Guillaume, Éditions KLOG, , p. 93
  7. Mikael Nilsson et Andy Powel, « Expressing Dublin Core metadata using the Resource Description Framework (RDF) » Expression des métadonnées Dublin Core avec le cadre de description de ressource (RDF) »], sur www.yoyodesign.org, (consulté le )
  8. Emmanuelle Bermès, « Vers de nouveaux catalogues ? Propos introductif », dans Vers de nouveaux catalogues, Éditions du Cercle de la Librairie, (lire en ligne), p. 9
  9. (en) « Library Linked Data Incubator Group: Datasets, Value Vocabularies, and Metadata Element Sets », sur www.w3.org (consulté le )
  10. « RAMEAU subject headings as SKOS linked data », sur www.cs.vu.nl (consulté le )
  11. Emmanuelle Bermès, Antoine Isaac et Gautier Poupeau, Le Web sémantique en bibliothèque, Éditions du Cercle de la Librairie, (ISBN 978-2-7654-1417-9, lire en ligne), p. 109
  12. British Standards Institution., Structured vocabularies for information retrieval : guide. Part 4:Interoperability between vocabularies, Londres, BSI, (OCLC 803954372, lire en ligne)
  13. Fichier d’autorités international virtuel ou Virtual International Authority File - service d’OCLC, créé en mai 2012.
  14. « Présentation générale du projet data.bnf.fr », sur data.bnf.fr, (consulté le )
  15. « Web sémantique et modèle de données », sur data.bnf.fr (consulté le )
  16. « Les notices d'autorité en RDF », sur documentation.abes.fr (consulté le )
  17. François Mistral et Yann Nicolas, « IdRef, les autorités en conquête et en partage », Autorités, identifiants, entités, no 85, , p. 8–9 (ISSN 2108-7016 et 1269-0589, DOI 10.35562/arabesques.213, lire en ligne, consulté le )
  18. « Les notices d'autorité en RDF », sur documentation.abes.fr (consulté le )
  19. « Le Sudoc en RDF », sur documentation.abes.fr (consulté le )
  20. « data.idref.fr - Réseau Autorités », sur abes.fr (consulté le )
  21. « Data IdRef - IdRef en métadonnées », sur data.idref.fr (consulté le )
  • Portail du Web sémantique
Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.