Métadonnées et Dublin Core

Openweb.eu.org > Articles  > Métadonnées et Dublin Core

Abstract

Les métadonnées du Dublin Core permettent de donner des informations à propos de pages Web. Dans cet article, nous voyons la forme de ces descriptions, ainsi que la façon de les intégrer dans des pages (X)HTML.

Article

Introduction

Depuis toujours, les bibliothécaires ont rédigé des notices, ou des index, pour décrire les documents disponibles. Pour reprendre le vocabulaire utilisé en informatique, ces notices constituent des données, qui servent à décrire d'autres données (le contenu des livres) : on parle alors de métadonnées.

Ces données à propos de données s'appliquent particulièrement bien aux pages Web. On peut ainsi vouloir coder de façon claire certains renseignements essentiels des pages : le titre, l'auteur, la date, les mots-clefs, etc.

Avec ces métadonnées, le travail des moteurs d'indexation et de recherche est grandement facilité car ils peuvent extraire automatiquement de nombreuses informations sur le document, ainsi que reconstituer les relations qui existent entre documents (par exemple, on peut savoir qu'une page est la cinquième d'un ensemble cohérent de quinze pages chaînées les unes aux autres).

Cependant, il est nécessaire que tous les acteurs (publicateurs, éditeurs de logiciels clients, etc.) partagent une définition et une nomenclature communes des métadonnées. Par exemple, aucun échange ne serait possible si la liste des mots-clefs était parfois nommée « keywords », d'autres fois « key-words », ou parfois « mots-clefs » !

Partant de ce constat, un certain nombre d'équipes impliquées dans la sémantique sur le Web ont organisé un atelier à Dublin (Ohio) en 1995. Ils ont défini une liste précise de quelques métadonnées liées aux pages Web. Ce jeu de métadonnées a été surnommé « Dublin Core metadata ». Désormais, l'ensemble de ces « propriétés » cataloguées par la Dublin Core Metadata Initiative (DCMI) comprend plusieurs dizaines de termes, mais 15 d'entre elles, plus fondamentales, ont été normalisées (ISO 15836-2003, RFC 5013). Dans cette introduction, nous traiterons presque exclusivement de ces 15 propriétés principales.

Principes

Le Dublin Core définit donc un certain nombre de propriétés utilisables pour décrire (entre autres) des pages Web. Mais il ne décrit en aucun cas la façon de représenter ces métadonnées en pratique. Ainsi, il existe plusieurs représentations utilisées, et d'autres sont envisageables. Dans la suite, nous utiliserons la présentation qui intéresse plus particulièrement les concepteurs de sites Web : l'inclusion des métadonnées dans les pages HTML.

Une description de page web selon le Dublin Core se présente donc sous la forme d'un ensemble de couples « propriété – valeur ». Ces valeurs peuvent être données dans un format libre (chaînes de caractères interprétables par des humains, mais sans signification particulières pour les machines), mais elles peuvent aussi se conformer à des formats de données bien définis. À cet effet, le Dublin Core référence un certain nombre de formats de données officiels. Une valeur peut également consister en un pointeur vers une ressource (un terme ou un autre document).

Propriétés

Nous allons tout d'abord voir la liste des 15 propriétés fondamentales du Dublin Core, puis nous apprendrons comment les utiliser en pratique avec HTML.

Liste des 15 propriétés fondamentales du Dublin Core
Propriété Description
title Titre du document : il s'agit a priori du titre principal du document.
creator Créateur du document : nom de la personne, de l'organisation ou du service à l'origine de la rédaction du document.
subject Sujet et mots-clefs : mots-clefs, phrases de résumé, ou codes de classement. Il est préférable d'utiliser des mots-clefs choisis dans le cadre d'une politique de classement. Par exemple, on peut utiliser les codages de la bibliothèque du congrès (LCSH et LCC), le vocabulaire médical (MESH), ou les notations décimales des bibliothécaires (DDC et UDC).
description Description du document : résumé, table des matières, ou texte libre.
publisher Publicateur du document : nom de la personne, de l'organisation ou du service à l'origine de la publication du document.
contributor Contributeur au document : nom d'une personne, d'une organisation ou d'un service qui contribue ou a contribué à l'élaboration du document.
date Date d'un événement dans le cycle de vie du document : il peut s'agir par exemple de la date de création ou de la date de mise à disposition. Il est recommandé de spécifier la date au format W3CDTF (AAAA-MM-JJ).
type Nature ou genre du contenu : grandes catégories de document. Il est recommandé d'utiliser des termes clairement définis au sein de son organisation. Par exemple, le Dublin Core définit quelques types dans le vocabulaire DCMITypes.
format Format du document : format physique ou électronique du document. Par exemple, type de média ou dimensions (taille, durée). On peut spécifier le matériel et le logiciel nécessaires pour accéder au document. Il est recommandé d'utiliser des termes clairement définis, par exemple les types MIME.
identifier Identificateur non ambigu : il est recommandé d'utiliser un système de référencement précis, par exemple les URI ou les numéros ISBN.
source Ressource dont dérive le document : le document peut découler en totalité ou en partie de la ressource en question. Il est recommandé d'utiliser une dénomination formelle des ressources, par exemple leur URI.
language Langue du document : il est recommandé d'utiliser un code de langue conforme au format RFC4646.
relation Lien vers une ressource liée : il est recommandé d'utiliser une dénomination formelle des ressources, par exemple leur URI.
coverage Portée du document : la portée inclut un domaine géographique, un laps de temps, ou une juridiction (nom d'une entité administrative). Il est recommandé d'utiliser des représentations normalisées de ces types de données, par exemple TGN (Thesaurus of Geographic Names, un dictionnaire de noms de lieux), ISO3166, Point ou Box pour la portée spatiale, Period ou W3CDTF pour la portée temporelle.
rights Droits relatifs à la ressource : permet de donner des informations sur le statut des droits du document, par exemple la présence d'un copyright, ou un lien vers le détenteur des droits. L'absence de cette propriété ne présume pas que le document est libre de droits.

Formats de données

Dans le tableau ci-dessus, nous avons présenté de façon informelle les formats de données utilisables dans les descriptions. Nous présentons en résumé les principaux formats de données « officiels » du Dublin Core, ainsi que leurs noms formels.

Nom formel Description Propriétés concernées
LCSH En-tête de la bibliothèque du Congrès (Library of Congress Subject Heading). subject
MESH Vocabulaire médical MeSH (Medical Subject Headings). subject
DDC Notation décimale de bibliothèque Dewey Decimal Classification. subject
LCC Classification de la bibliothèque du Congrès (Library of Congress Classification). subject
UDC Notation décimale de bibliothèque Universal Decimal Classification. subject
DCMIType Type du document parmi une série de types définis par le Dublin Core : Collection (agrégation de documents formant un tout), Dataset (structure appropriée au traitement par ordinateur), Event (évènement, par définition éphémère. Par exemple : exposition, conférence, bataille, procès, mariage, etc.), Image (toute image, animée ou non ; on peut lui préférer MovingImage pour les vidéos et animations, ou StillImage pour les images fixes, comme les photos, les tableaux ou les plans), InteractiveResource (objet qui demande une interaction de l'utilisateur, par exemple une page Web, une applet, un service de chat, etc.), PhysicalObject (tout objet physique inanimé : ordinateur, sculpture, bâtiment, etc.), Service (entité qui rend des services à l'utilisateur, comme un service de photocopie ou un serveur Web), Software (logiciel d'ordinateur), Sound (son, par exemple voix ou musique), Text (texte au sens large : livre, magazine, journal, poème, message d'une liste de diffusion, etc.) type
RFC4646 Code de langue RFC 4646 (remplaçante de la RFC 3066). Il est composé d'un code de langue sur deux ou trois lettres, éventuellement suivi d'un suffixe de pays pour indiquer la variante de la langue (par exemple, fr-CA pour la Français du Canada, fr-FR pour le Français de France, en pour l'Anglais en général). language
URI Un URI, selon la RFC 2396. identifier, source, relation
Point Point de l'espace repéré par ses coordonnées géographiques. coverage
ISO3166 Codes ISO-3166 de représentation des noms de pays sous forme de chaîne de deux caractères (exemples : FR, DE). coverage
Box Représentation des régions géographiques du Dublin Core. coverage
TGN Noms issus du Getty Thesaurus of Geographic Names. coverage
Period Représentation des intervalles de temps du Dublin Core. coverage, date
W3CDTF Codage des dates et heures du W3C . Pour référencer un jour, on utilise le format AAAA-MM-JJ. coverage, date

En pratique : utilisation avec (X)HTML

Il est possible d'inclure les métadonnées relatives à un document HTML directement à l'intérieur de ce document. Elles prennent place à l'intérieur de l'en-tête (section <head>), dans des balises <meta> pour les valeurs littérales ou <link> pour les liens vers des termes ou vers d'autres documents.

Tout d'abord, la balise <head> doit posséder l'attribut profile avec la valeur http://dublincore.org/documents/2008/08/04/dc-html/, ce qui indique formellement que l'en-tête contient des données selon la méthode « codage du Dublin Core pour le (X)HTML » (plus exactement, on parle du profil de méta-données DC-HTML).

Ensuite, il faut déclarer les vocabulaires que vous allez utiliser. Les 15 propriétés fondamentales du Dublin Core se déclarent de la façon suivante :

<link rel="schema.DC" href="http://purl.org/dc/elements/1.1/" />

Formellement, on indique que l'espace de nom DC est lié à l'URI qui définit le Dublin Core. De même, si vous souhaitez référencer des formats de données et/ou utiliser des propriétés DCMI « étendues » (au-delà des 15 de base), vous devez déclarer l'espace de nom DCTERMS :

<link rel="schema.DCTERMS" href="http://purl.org/dc/terms/" />

Enfin, on peut énumérer les propriétés à appliquer au document, de la façon suivante :

<!-- Pour une valeur littérale -->
<meta name="DC.nom de propriété" content="valeur littérale de la métadonnée" />

<!-- Pour un lien vers une ressource (un terme défini par un URI ou un autre document) -->
<link rel="DC.nom de propriété" href="URI" />
    

La barre oblique à la fin de ces balises <meta> est nécessaire en XHTML.

Les balises meta peuvent éventuellement être dotées des attributs supplémentaires suivants :

lang (HTML) ou xml:lang (XHTML)
Permet de spécifier la langue du contenu.
scheme
Permet de spécifier le format normalisé utilisé pour le contenu. Cet attribut prend ses valeurs dans la première colonne du tableau « formats de données ». Elles doivent être préfixées par l'espace de nom correspondant, DCTERMS pour celles citées ici.

Quand aux balises link, elles peuvent posséder l'attribut title qui contient une chaîne de caractères décrivant la ressource, chaîne dont la langue peut, de même, être précisée par un attribut (xml:)lang peut préciser la langue de cette chaîne de caractères.

Voici en pratique un extrait de document d'exemple dans lequel on a inséré des métadonnées. Cet extrait de code contient une déclaration de type de document pour le XHTML 1.0 Strict. En pratique, remplacez-la par la déclaration de votre choix.

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
  "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">

<html>
  <head profile="http://dublincore.org/documents/2008/08/04/dc-html/">
    <title>Un document en HTML</title>
    <meta http-equiv="Content-type"
      content="text/html; charset=iso-8859-1" />

    <link rel="schema.DC" href="http://purl.org/dc/elements/1.1/" />
    <link rel="schema.DCTERMS" href="http://purl.org/dc/terms/" />
    
    <meta name="DC.title" lang="fr" content="Un document en HTML" />
    <meta name="DC.date" scheme="DCTERMS.W3CDTF" content="2003-04-03" />
    <meta name="DC.subject" lang="fr" content="HTML, document, Dublin Core" />
    <meta name="DC.language" scheme="DCTERMS.RFC4646" content="fr-FR" />
    <meta name="DC.description" lang="fr"
        content="Mon premier document HTML avec métadonnées" />
    <link rel="DC.source" href="urn:ISBN:978-1-2345-6789-X" />
  </head>
  <body>
    ...
  </body>
</html>
    

Pour aller plus loin

L'exemple ci-dessus n'utilise que les 15 propriétés de base, mais de fait, on ne sait pas bien à quoi correspond la date du document. S'agit-il de la date de création, de modification, de mise en ligne...? Pour résoudre cette ambiguïté, on peut utiliser des propriétés issues du vocabulaire DCMI complet, qui raffinent date : created et modified :

    <meta name="DCTERMS.created" scheme="DCTERMS.W3CDTF" content="2003-04-03" />
    <meta name="DCTERMS.modified" scheme="DCTERMS.W3CDTF" content="2003-04-27" />  

Notez bien que ces nouvelles propriétés ne sont plus dans l'espace de nom DC mais DCTERMS.

Conclusion

Nous avons présenté une méthode de codage de métadonnées qui gagnerait à se répandre sur le Web : l'utilisation du Dublin Core. Comme le montre l'exemple précédent, vous pouvez sans peine inclure de telles métadonnées dans vos propres pages : il suffit de faire figurer les quelques lignes idoines dans l'en-tête HTML. Grâce à ces informations, des systèmes automatiques peuvent réellement tirer parti de vos pages, car elles contiennent leur propre descriptif synthétique.

Références

À propos de cet article

  • Openweb.eu.org
  • Profil : Expert
  • Technologie : (X)HTML
  • Thème : Structure
  • Auteur :
  • Publié le :
  • Mise à jour : 3 janvier 2010
  • 5 commentaires

Vos commentaires

  • Matelly Le 30 juin 2012 à 14:26

    Bonjour,

    Pouvez vous svp m’en dire plus sur les métadonnées & Dublin Core pour optimiser mon site.
    NB/ je n’ai pas de notion particulière aussi soyez indulgents et si vous me répondez ..."parlez moi "simple"...

    Bien à vous, BM.

  • Anonyme Le 2 août 2012 à 19:39

    Excellent article !
    Les métas DC sont utilisées de plus en plus sur tous types de ressources, et semblent évidemment très avantageuses pour des documents en ligne, et pas juste des pages lambda…

  • karl dubost Le 28 août 2012 à 21:30

    Bonjour Matelli et désolé du retard pour la réponse.

    La question est difficile car elle contient le bout de phrase "pour optimiser mon site". Pour optimiser un site, il faut un objectif, un but à atteindre, afin de savoir si 1. l’optimisation était pertinente 2. si on a réussi à le faire.

    Est-il possible de savoir quels sont les objectifs ?

    Merci. Et on répondra plus rapidement pour la réponse promis.

  • Florent Le 13 mars 2013 à 17:43

    Bonjour,

    En terme de référencement est-ce que cela a une utilité. Google les prend-il en compte les dublin core, les prendra t-il en compte et cela peut-il avoir un impacte sur le référencement et le positionnement ?

    Merci pour votre réponse

  • Antoine Le 9 septembre à 12:13

    Bonjour,

    Plus d’un est passé depuis la question de Florent, mais comme je suis tombé sur cet article aujourd’hui pour une recherche, ma réponse pourra servir à de futurs visiteurs :

    Les balises DublinCore sont totalement inutiles dans une stratégie de référencement, les moteurs de recherche (donc Google y compris) ne tiennent pas compte de ces informations (cela ne nuit pas mais n’a pas vocation à aider votre référencement, peut-être pour autre chose alors ... )

Répondre à cet article

Qui êtes-vous ?

Pour afficher votre trombine avec votre message, enregistrez-la d’abord sur gravatar.com (gratuit et indolore) et n’oubliez pas d’indiquer votre adresse e-mail ici.

Ajoutez votre commentaire ici
  • Ce formulaire accepte les raccourcis SPIP [->url] {{gras}} {italique} <quote> <code> et le code HTML <q> <del> <ins>. Pour créer des paragraphes, laissez simplement des lignes vides.

Suivre les commentaires : RSS 2.0 | Atom