Introduction
Depuis toujours, les bibliothécaires ont rédigé des notices, ou des index, pour décrire les documents disponibles. Pour reprendre le vocabulaire utilisé en informatique, ces notices constituent des données, qui servent à décrire d'autres données (le contenu des livres) : on parle alors de métadonnées.
Ces données à propos de données s'appliquent particulièrement bien aux pages Web. On peut ainsi vouloir coder de façon claire certains renseignements essentiels des pages : le titre, l'auteur, la date, les mots-clefs, etc.
Avec ces métadonnées, le travail des moteurs d'indexation et de recherche est grandement facilité car ils peuvent extraire automatiquement de nombreuses informations sur le document, ainsi que reconstituer les relations qui existent entre documents (par exemple, on peut savoir qu'une page est la cinquième d'un ensemble cohérent de quinze pages chaînées les unes aux autres).
Cependant, il est nécessaire que tous les acteurs (publicateurs, éditeurs de logiciels clients, etc.) partagent une définition et une nomenclature communes des métadonnées. Par exemple, aucun échange ne serait possible si la liste des mots-clefs était parfois nommée « keywords », d'autres fois « key-words », ou parfois « mots-clefs » !
Partant de ce constat, un certain nombre d'équipes impliquées dans la sémantique sur le Web ont organisé un atelier à Dublin (Ohio) en 1995. Ils ont défini une liste précise de quelques métadonnées liées aux pages Web. Ce jeu de métadonnées a été surnommé « Dublin Core metadata ». Désormais, l'ensemble de ces « propriétés » cataloguées par la Dublin Core Metadata Initiative (DCMI) comprend plusieurs dizaines de termes, mais 15 d'entre elles, plus fondamentales, ont été normalisées (ISO 15836-2003, RFC 5013). Dans cette introduction, nous traiterons presque exclusivement de ces 15 propriétés principales.
Principes
Le Dublin Core définit donc un certain nombre de propriétés utilisables pour décrire (entre autres) des pages Web. Mais il ne décrit en aucun cas la façon de représenter ces métadonnées en pratique. Ainsi, il existe plusieurs représentations utilisées, et d'autres sont envisageables. Dans la suite, nous utiliserons la présentation qui intéresse plus particulièrement les concepteurs de sites Web : l'inclusion des métadonnées dans les pages HTML.
Une description de page web selon le Dublin Core se présente donc sous la forme d'un ensemble de couples « propriété – valeur ». Ces valeurs peuvent être données dans un format libre (chaînes de caractères interprétables par des humains, mais sans signification particulières pour les machines), mais elles peuvent aussi se conformer à des formats de données bien définis. À cet effet, le Dublin Core référence un certain nombre de formats de données officiels. Une valeur peut également consister en un pointeur vers une ressource (un terme ou un autre document).
Propriétés
Nous allons tout d'abord voir la liste des 15 propriétés fondamentales du Dublin Core, puis nous apprendrons comment les utiliser en pratique avec HTML.
Propriété | Description |
---|---|
title | Titre du document : il s'agit a priori du titre principal du document. |
creator | Créateur du document : nom de la personne, de l'organisation ou du service à l'origine de la rédaction du document. |
subject | Sujet et mots-clefs : mots-clefs, phrases de résumé, ou codes de classement. Il est préférable d'utiliser des mots-clefs choisis dans le cadre d'une politique de classement. Par exemple, on peut utiliser les codages de la bibliothèque du congrès (LCSH et LCC), le vocabulaire médical (MESH), ou les notations décimales des bibliothécaires (DDC et UDC). |
description | Description du document : résumé, table des matières, ou texte libre. |
publisher | Publicateur du document : nom de la personne, de l'organisation ou du service à l'origine de la publication du document. |
contributor | Contributeur au document : nom d'une personne, d'une organisation ou d'un service qui contribue ou a contribué à l'élaboration du document. |
date | Date d'un événement dans le cycle de vie du document : il peut s'agir par exemple de la date de création ou de la date de mise à disposition. Il est recommandé de spécifier la date au format W3CDTF (AAAA-MM-JJ). |
type | Nature ou genre du contenu : grandes catégories de document. Il est recommandé d'utiliser des termes clairement définis au sein de son organisation. Par exemple, le Dublin Core définit quelques types dans le vocabulaire DCMITypes. |
format | Format du document : format physique ou électronique du document. Par exemple, type de média ou dimensions (taille, durée). On peut spécifier le matériel et le logiciel nécessaires pour accéder au document. Il est recommandé d'utiliser des termes clairement définis, par exemple les types MIME. |
identifier | Identificateur non ambigu : il est recommandé d'utiliser un système de référencement précis, par exemple les URI ou les numéros ISBN. |
source | Ressource dont dérive le document : le document peut découler en totalité ou en partie de la ressource en question. Il est recommandé d'utiliser une dénomination formelle des ressources, par exemple leur URI. |
language | Langue du document : il est recommandé d'utiliser un code de langue conforme au format RFC4646. |
relation | Lien vers une ressource liée : il est recommandé d'utiliser une dénomination formelle des ressources, par exemple leur URI. |
coverage | Portée du document : la portée inclut un domaine géographique, un laps de temps, ou une juridiction (nom d'une entité administrative). Il est recommandé d'utiliser des représentations normalisées de ces types de données, par exemple TGN (Thesaurus of Geographic Names, un dictionnaire de noms de lieux), ISO3166, Point ou Box pour la portée spatiale, Period ou W3CDTF pour la portée temporelle. |
rights | Droits relatifs à la ressource : permet de donner des informations sur le statut des droits du document, par exemple la présence d'un copyright, ou un lien vers le détenteur des droits. L'absence de cette propriété ne présume pas que le document est libre de droits. |
Formats de données
Dans le tableau ci-dessus, nous avons présenté de façon informelle les formats de données utilisables dans les descriptions. Nous présentons en résumé les principaux formats de données « officiels » du Dublin Core, ainsi que leurs noms formels.
Nom formel | Description | Propriétés concernées |
---|---|---|
LCSH
|
En-tête de la bibliothèque du Congrès (Library of Congress Subject Heading). |
subject
|
MESH
|
Vocabulaire médical MeSH (Medical Subject Headings). |
subject
|
DDC
|
Notation décimale de bibliothèque Dewey Decimal Classification. |
subject
|
LCC
|
Classification de la bibliothèque du Congrès (Library of Congress Classification). |
subject
|
UDC
|
Notation décimale de bibliothèque Universal Decimal Classification. |
subject
|
DCMIType
|
Type du document parmi une série de types définis par le Dublin Core : Collection (agrégation de documents formant un tout), Dataset (structure appropriée au traitement par ordinateur), Event (évènement, par définition éphémère. Par exemple : exposition, conférence, bataille, procès, mariage, etc.), Image (toute image, animée ou non ; on peut lui préférer MovingImage pour les vidéos et animations, ou StillImage pour les images fixes, comme les photos, les tableaux ou les plans), InteractiveResource (objet qui demande une interaction de l'utilisateur, par exemple une page Web, une applet, un service de chat, etc.), PhysicalObject (tout objet physique inanimé : ordinateur, sculpture, bâtiment, etc.), Service (entité qui rend des services à l'utilisateur, comme un service de photocopie ou un serveur Web), Software (logiciel d'ordinateur), Sound (son, par exemple voix ou musique), Text (texte au sens large : livre, magazine, journal, poème, message d'une liste de diffusion, etc.) |
type
|
RFC4646
|
Code de langue RFC 4646 (remplaçante de la RFC 3066). Il est composé d'un code de langue sur deux ou trois lettres, éventuellement suivi d'un suffixe de pays pour indiquer la variante de la langue (par exemple, fr-CA pour la Français du Canada, fr-FR pour le Français de France, en pour l'Anglais en général). |
language
|
URI
|
Un URI, selon la RFC 2396. |
identifier , source , relation
|
Point
|
Point de l'espace repéré par ses coordonnées géographiques. |
coverage
|
ISO3166
|
Codes ISO-3166 de représentation des noms de pays sous forme de chaîne de deux caractères (exemples : FR , DE ). |
coverage
|
Box
|
Représentation des régions géographiques du Dublin Core. |
coverage
|
TGN
|
Noms issus du Getty Thesaurus of Geographic Names. |
coverage
|
Period
|
Représentation des intervalles de temps du Dublin Core. |
coverage , date
|
W3CDTF
|
Codage des dates et heures du W3C . Pour référencer un jour, on utilise le format AAAA-MM-JJ. |
coverage , date
|
En pratique : utilisation avec (X)HTML
Il est possible d'inclure les métadonnées relatives à un document HTML directement à l'intérieur de ce document. Elles prennent place à l'intérieur de l'en-tête (section <head>
), dans des balises <meta>
pour les valeurs littérales ou <link>
pour les liens vers des termes ou vers d'autres documents.
Tout d'abord, la balise <head>
doit posséder l'attribut profile
avec la valeur http://dublincore.org/documents/2008/08/04/dc-html/
, ce qui indique formellement que l'en-tête contient des données selon la méthode « codage du Dublin Core pour le (X)HTML » (plus exactement, on parle du profil de méta-données DC-HTML).
Ensuite, il faut déclarer les vocabulaires que vous allez utiliser. Les 15 propriétés fondamentales du Dublin Core se déclarent de la façon suivante :
<link rel="schema.DC" href="http://purl.org/dc/elements/1.1/" />
Formellement, on indique que l'espace de nom DC
est lié à l'URI qui définit le Dublin Core. De même, si vous souhaitez référencer des formats de données et/ou utiliser des propriétés DCMI « étendues » (au-delà des 15 de base), vous devez déclarer l'espace de nom DCTERMS
:
<link rel="schema.DCTERMS" href="http://purl.org/dc/terms/" />
Enfin, on peut énumérer les propriétés à appliquer au document, de la façon suivante :
<!-- Pour une valeur littérale --> <meta name="DC.nom de propriété" content="valeur littérale de la métadonnée" /> <!-- Pour un lien vers une ressource (un terme défini par un URI ou un autre document) --> <link rel="DC.nom de propriété" href="URI" />
La barre oblique à la fin de ces balises <meta>
est nécessaire en XHTML.
Les balises meta
peuvent éventuellement être dotées des attributs supplémentaires suivants :
-
lang
(HTML) ouxml:lang
(XHTML) - Permet de spécifier la langue du contenu.
-
scheme
- Permet de spécifier le format normalisé utilisé pour le contenu. Cet attribut prend ses valeurs dans la première colonne du tableau « formats de données ». Elles doivent être préfixées par l'espace de nom correspondant,
DCTERMS
pour celles citées ici.
Quand aux balises link
, elles peuvent posséder l'attribut title
qui contient une chaîne de caractères décrivant la ressource, chaîne dont la langue peut, de même, être précisée par un attribut (xml:
)lang
peut préciser la langue de cette chaîne de caractères.
Voici en pratique un extrait de document d'exemple dans lequel on a inséré des métadonnées. Cet extrait de code contient une déclaration de type de document pour le XHTML 1.0 Strict. En pratique, remplacez-la par la déclaration de votre choix.
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"> <html> <head profile="http://dublincore.org/documents/2008/08/04/dc-html/"> <title>Un document en HTML</title> <meta http-equiv="Content-type" content="text/html; charset=iso-8859-1" /> <link rel="schema.DC" href="http://purl.org/dc/elements/1.1/" /> <link rel="schema.DCTERMS" href="http://purl.org/dc/terms/" /> <meta name="DC.title" lang="fr" content="Un document en HTML" /> <meta name="DC.date" scheme="DCTERMS.W3CDTF" content="2003-04-03" /> <meta name="DC.subject" lang="fr" content="HTML, document, Dublin Core" /> <meta name="DC.language" scheme="DCTERMS.RFC4646" content="fr-FR" /> <meta name="DC.description" lang="fr" content="Mon premier document HTML avec métadonnées" /> <link rel="DC.source" href="urn:ISBN:978-1-2345-6789-X" /> </head> <body> ... </body> </html>
Pour aller plus loin
L'exemple ci-dessus n'utilise que les 15 propriétés de base, mais de fait, on ne sait pas bien à quoi correspond la date du document. S'agit-il de la date de création, de modification, de mise en ligne...? Pour résoudre cette ambiguïté, on peut utiliser des propriétés issues du vocabulaire DCMI complet, qui raffinent date
: created
et modified
:
<meta name="DCTERMS.created" scheme="DCTERMS.W3CDTF" content="2003-04-03" /> <meta name="DCTERMS.modified" scheme="DCTERMS.W3CDTF" content="2003-04-27" />
Notez bien que ces nouvelles propriétés ne sont plus dans l'espace de nom DC
mais DCTERMS
.
Conclusion
Nous avons présenté une méthode de codage de métadonnées qui gagnerait à se répandre sur le Web : l'utilisation du Dublin Core. Comme le montre l'exemple précédent, vous pouvez sans peine inclure de telles métadonnées dans vos propres pages : il suffit de faire figurer les quelques lignes idoines dans l'en-tête HTML. Grâce à ces informations, des systèmes automatiques peuvent réellement tirer parti de vos pages, car elles contiennent leur propre descriptif synthétique.
Références
- Dublin Core Metadata Initiative (DCMI)
- Expressing Dublin Core metadata using HTML/XHTML meta and link elements
- DCMI Abstract Model
- DCMI Metadata Terms, la liste complète de toutes les propriétés définies par la Dublin Core Metadata Initiative
- Dublin Core Metadata Element Set, Version 1.1, les 15 propriétés fondamentales du Dublin Core
- Métanames et Dublin Core, transparent d'une présentation de Karl Dubost, RDF et les métadonnées (utilise une ancienne version de la syntaxe)
Vos commentaires
# Matelly Le 30 juin 2012 à 14:26
Bonjour,
Pouvez vous svp m’en dire plus sur les métadonnées & Dublin Core pour optimiser mon site.
NB/ je n’ai pas de notion particulière aussi soyez indulgents et si vous me répondez ..."parlez moi "simple"...
Bien à vous, BM.
# Le 2 août 2012 à 19:39
Excellent article !
Les métas DC sont utilisées de plus en plus sur tous types de ressources, et semblent évidemment très avantageuses pour des documents en ligne, et pas juste des pages lambda…
# karl dubost Le 28 août 2012 à 21:30
Bonjour Matelli et désolé du retard pour la réponse.
La question est difficile car elle contient le bout de phrase "pour optimiser mon site". Pour optimiser un site, il faut un objectif, un but à atteindre, afin de savoir si 1. l’optimisation était pertinente 2. si on a réussi à le faire.
Est-il possible de savoir quels sont les objectifs ?
Merci. Et on répondra plus rapidement pour la réponse promis.
# Florent Le 13 mars 2013 à 17:43
Bonjour,
En terme de référencement est-ce que cela a une utilité. Google les prend-il en compte les dublin core, les prendra t-il en compte et cela peut-il avoir un impacte sur le référencement et le positionnement ?
Merci pour votre réponse
# Antoine Le 9 septembre 2014 à 12:13
Bonjour,
Plus d’un est passé depuis la question de Florent, mais comme je suis tombé sur cet article aujourd’hui pour une recherche, ma réponse pourra servir à de futurs visiteurs :
Les balises DublinCore sont totalement inutiles dans une stratégie de référencement, les moteurs de recherche (donc Google y compris) ne tiennent pas compte de ces informations (cela ne nuit pas mais n’a pas vocation à aider votre référencement, peut-être pour autre chose alors ... )
# Vincent Le 2 juin 2015 à 09:52
Hello
Effectivement, je n’ai jamais entendu parler d’un quelconque impact des balises dublinCore sur le référencement naturel d’un site Internet dans les moteurs de recherche.
# Baptiste Le 27 juin 2015 à 02:30
Je ne sais pas si les DublinCore sont totalement inutiles. Mais Google ne les prends pas comme un critère de pertinence.
# frédéric ALONSO Le 17 juin 2019 à 19:17
Bonjour,
quand,j’ai appris l’existence du Dublin Core cela m’a laissé perplexe sur son but.Alors,merci au commentaire qui m’a rassuré sur le fait d’une invention gadget de plus qui n’a d’impact sur le référencement.
Vos commentaires
Suivre les commentaires : |