<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="fr" lang="fr">
  <head>
    <title>Openweb.eu.org - Passer du HTML au XHTML</title>
    <meta http-equiv="Content-type" content="text/html; charset=UTF-8" />
    <link rel="schema.DC" href="http://purl.org/dc/elements/1.1/" />
    <meta name="DC.Language" scheme="RFC3066" content="fr" />
    <meta name="DC.Identifier" content="html_au_xhtml" />
    <meta name="DC.Creator" content="Laurent Jouanneau, Denis Boudreau" />
    <meta name="DC.Date.created" scheme="W3CDTF" content="2003-03-21" />
    <meta name="DC.Date.modified" scheme="W3CDTF" content="2003-03-21" />
    <meta name="DC.Rights" content="Cet article est sous licence Creative Commons Attribution-ShareAlike." />
    <meta name="DC.Subject" content="expert, xhtml" />
  </head>
  <body>
    <h1>Passer du HTML au XHTML</h1>
    <ul>
      <li>
        <strong>Profil :</strong> <a href="/expert/">Expert</a>
      </li>
      <li>
        <strong>Technologie :</strong> <a href="/xhtml/">(X)HTML</a>
      </li>
      <li>
        <strong>Auteur :</strong> <a href="mailto:laurent.jouanneau%40openweb.eu.org">Laurent Jouanneau</a>
      </li>
      <li>
        <strong>Auteur :</strong> <a href="mailto:denis.boudreau%40openweb.eu.org">Denis Boudreau</a>
      </li>
      <li>
        <strong>Mise à jour :</strong> 21/03/2003</li>
    </ul>
    <h2>En bref</h2>
    <p>Les règles à suivre pour passer de la syntaxe <acronym title="HyperText Markup Language" lang="en">HTML</acronym> à la norme <acronym title="eXtensible HyperText Markup Language" lang="en">XHTML</acronym>.</p>
    <hr />
    <h3>Introduction</h3>
    <p>Depuis le 26 janvier 2000, le <acronym>XHTML</acronym> est la nouvelle norme du <acronym title="World Wide Web Consortium" lang="en">W3C</acronym> en matière de langage balisé pour concevoir des documents Web. Que vos pages existantes soient actuellement conformes ou non aux différentes versions du <acronym>HTML</acronym> importe peu. Vous allez rapidement constater que les convertir en <acronym>XHTML</acronym> n'est pas sorcier du tout. En effet, puisque le <acronym>XHTML</acronym> n'est rien de plus que du <acronym>HTML</acronym> reformulé de façon à respecter les règles strictes du <acronym title="eXtensible Markup Language" lang="en">XML</acronym>, il ne vous suffit que d'apprendre quelques règles syntaxiques propres à <acronym>XML</acronym> pour commencer à coder selon les normes du <acronym>W3C</acronym>. Si vos documents sont déjà conformes (valides) aux règles du <acronym>HTML</acronym> 4.01, votre travail de conversion en sera grandement facilité. Cependant, si vous avez l'habitude de coder selon les règles plus permissives du <acronym>HTML</acronym> des premières versions, truffé de balises propriétaires ou dépréciées depuis, vous aurez un peu plus de pain sur la planche.</p>
    <p>Tout ce qui vous sépare de votre but, c'est un peu moins d'une dizaine de petites lois et quelques principes d'application.  Issues de la spécification <acronym>XML</acronym>, ces lois permettent une séparation logique entre les aspects de structure et de présentation dans un document Web. Car voilà réellement ce qu'est le <acronym>XHTML</acronym> : un pont entre le <acronym>HTML</acronym> (le langage d'hier) et le <acronym>XML</acronym> (le langage de demain).</p>
    <p>Cet article n'a qu'un seul but, celui de vous aider à franchir ce pas entre le <acronym>HTML</acronym> du siècle dernier et celui d'aujourd'hui ou, si vous préférez, à mettre un peu de <em>X</em> dans votre <acronym>HTML</acronym>.</p>
    <h4>Chaque balise nécessite une fermeture</h4>
    <p>Dans les premières heures du <acronym>HTML</acronym>, on pouvait se permettre d'être relativement brouillon dans la façon d'organiser son code. Maintenant, selon les règles plus strictes du <acronym>XML</acronym>, il n'y a plus de place pour une telle permissivité ; ainsi, toutes les balises présentes dans un document Web doivent dorénavant être correctement fermées : il ne faut jamais oublier d'ajouter la balise de fermeture d'un élément quand celle-ci existe :</p>
    <p>Invalide :</p>
    <pre>&lt;p&gt;<strong>Lorem ipsum dolor sit amet. Praesent vel justo.</strong>
    </pre>
    <p>Valide :</p>
    <pre>&lt;p&gt;<strong>Lorem ipsum dolor sit amet. Praesent vel justo.</strong>&lt;/p&gt;</pre>
    <h4>Même celles qui n'en ont pas</h4>
    <p>En revanche, comment peut-on fermer ces autres éléments ne possèdant pas de balise de fin, comme les <code>&lt;br&gt;</code> et <code>img</code> ? En leur inventant une balise de fermeture ? Eh bien presque. Sauf que vous n'aurez pas à les inventer puisque le <acronym>W3C</acronym> s'en est déjà chargé pour vous. Vous pourriez effectivement vous mettre à coder des <code>&lt;br&gt;&lt;/br&gt;</code> ou des <code>&lt;img&gt;&lt;/img&gt;</code>, mais une telle pratique est déconseillée puisqu'il est possible que cela produise des résultats inattendus dans certains butineurs. Ce serait aussi un peu inutile puisque selon la syntaxe <acronym>XML</acronym>, il est possible de simplement fermer un élément en lui attribuant une barre oblique (un <em>slash</em>) en fin de balise, comme ceci : <code>&lt;br /&gt;</code>, ou encore <code>&lt;img /&gt;</code>. Cependant, si vous optez pour la seconde méthode, il ne faut pas oublier d'inclure un espace entre le contenu de l'élément et la barre oblique, car autrement, les anciens navigateurs, en particulier Netscape 4.x, ne pourront l'interpréter et l'ignoreront tout bonnement :</p>
    <p>Invalide :</p>
    <pre>&lt;br&gt;</pre>
    <p>Valide :</p>
    <pre>&lt;br /&gt;</pre>
    <h4>Imbriquer correctement les éléments</h4>
    <p>Quand on ouvre une série de balises en cascades, (les unes à l'intérieur de l'espace de définition des autres), il faut obligatoirement les refermer dans l'ordre inverse de l'ordre d'ouverture pour respecter la structure logique interne du document. Il faut toujours voir une balise <acronym>HTML</acronym> comme étant incluse dans une autre balise qui lui sert de parent. Ainsi, dans l'exemple ci-dessous, l'élément <code>strong</code>, qui est un enfant direct de l'élément <code>p</code>, doit impérativement se refermer à l'intérieur de l'élément qui le contient :</p>
    <p>Invalide :</p>
    <pre>&lt;p&gt;Paragraphe avec texte en &lt;strong&gt;gras&lt;/p&gt;&lt;/strong&gt;</pre>
    <p>Valide :</p>
    <pre>&lt;p&gt;Paragraphe avec texte en &lt;strong&gt;gras&lt;/strong&gt;&lt;/p&gt;</pre>
    <h4>Utiliser des minuscules dans les balises et leurs attributs</h4>
    <p>En <acronym>HTML</acronym>, on pouvait à loisir utiliser des majuscules ou des minuscules pour baliser nos documents. Certains voyaient même en l'utilisation des majuscules un moyen efficace pour repérer le code <acronym>HTML</acronym> du contenu dans un document. Avec <acronym>XHTML</acronym>, ce n'est plus possible ; puisque <acronym>XML</acronym> est sensible à la casse, toutes les balises et tous leurs attributs doivent obligatoirement être écrits en lettres minuscules. C'est donc dire que les balises <code>&lt;LI&gt;</code> et <code>&lt;li&gt;</code> ne sont plus identiques en <acronym>XHTML</acronym>, alors que c'était le cas en <acronym>HTML</acronym>. Les valeurs d'attributs, par contre, peuvent toujours être écrites en majuscules :</p>
    <p>Invalide :</p>
    <pre>&lt;TEXTAREA ID="monTexte"&gt;&lt;/TEXTAREA&gt;</pre>
    <p>Valide :</p>
    <pre>&lt;textarea id="monTexte"&gt;&lt;/textarea&gt;</pre>
    <h4>Chaque valeur d'attribut doit être entre guillemets</h4>
    <p>Avec les versions antécédentes de <acronym>HTML</acronym>, le recours aux guillemets pour encadrer les valeurs d'attributs était conseillé, mais pas obligatoire. Toujours selon les règles de <acronym>XML</acronym>, l'utilisation des guillemets n'est plus une proposition, mais bien une obligation. De plus, il ne peut plus y avoir de saut de ligne dans la définition d'une valeur donnée. Les caractères d'espacement (comme les espaces, les bris de lignes et les retours de chariots) sont interprétés différemment de navigateurs en navigateurs. Lorsque des caractères d'espacement sont insérés dans les valeurs d'attributs, les navigateurs tronquent ces espaces et les transposent en code <acronym title="American Standard Code for Information Interchange" lang="en">ASCII</acronym>, d'où parfois d'imprévisibles maux de têtes. Afin de vous éviter ces tracas, prenez simplement la bonne habitude de ne pas laisser d'espace dans vos valeurs d'attributs :</p>
    <p>Invalide :</p>
    <pre>&lt;div id=monMenu&gt;&lt;/div&gt;</pre>
    <p>Valide :</p>
    <pre>&lt;div id="monMenu"&gt;&lt;/div&gt;</pre>
    <h4>Les formes abrégées d'attributs sont interdites</h4>
    <p>Certaines balises en <acronym>HTML</acronym> possédaient des attributs autonomes qui pouvaient être utilisés sans valeurs associées, comme c'était par exemple le cas pour la balise <code>input</code> avec laquelle on pouvait utiliser les attributs <code>"checked"</code>, <code>"disabled"</code> et <code>"readonly"</code>. Une pratique courante en <acronym>HTML</acronym> consistait donc à les déclarer de manière abrégée, afin d'économiser le nombre de caractères, en spécifiant directement un attribut sans valeur associée dans une balise <acronym>HTML</acronym>. En <acronym>XHTML</acronym>, cette pratique est révolue. Dorénavant, afin de rendre votre code valide, il vous faut l'inscrire de manière complète, c'est-à-dire en spécifiant l'attribut et sa valeur associée, même si cela représente une répétition :</p>
    <p>Invalide :</p>
    <pre>&lt;option value="page.html" selected&gt;&lt;/option&gt;</pre>
    <p>Valide :</p>
    <pre>&lt;option value="page.html" selected="selected"&gt;&lt;/option&gt;</pre>
    <h4>L'attribut <code>"name"</code> est remplacé par l'attribut <code>"id"</code>
    </h4>
    <p>L'attribut <code>"name"</code>, utilisé en <acronym>HTML</acronym> pour nommer les ancres, les images ou tout autre objet dans un document Web est remplacé par l'attribut <code>"id"</code> en <acronym>XHTML</acronym>. En effet, puisque le principe de nommer un objet revient à l'identifier et que par définition, cet identifiant se doit d'être unique, le recours à l'attribut <code>"id"</code> permet de s'assurer que la communication par le <acronym title="Document Object Model" lang="en">DOM</acronym> avec un objet dans un document donné se fera individuellement. Malheureusement, le support pour l'attribut <code>"id"</code> étant faible ou inexistant dans les anciens navigateurs, il importe (en <acronym>XHTML</acronym> 1.0) de continuer à utiliser à la fois les attributs <code>"name"</code> et <code>"id"</code> pour désigner un même objet dans ces navigateurs, en leur attribuant des valeurs identiques, de sorte que les navigateurs de nouvelle génération puissent y trouver leur compte conformément aux règles de <acronym>XML</acronym>, tout en assurant une rétro-compatibilité avec les anciens navigateurs :</p>
    <p>Invalide :</p>
    <pre>&lt;h1 name="<strong>titre</strong>"&gt;<strong>…</strong>&lt;/h1&gt;</pre>
    <p>Valide :</p>
    <pre>&lt;h1 name="<strong>titre</strong>" id="<strong>titre</strong>"&gt;<strong>…</strong>&lt;/h1&gt;</pre>
    <p>Ajoutons que l'attribut <code>"name"</code> des éléments <code>a</code>, <code>applet</code>, <code>form</code>, <code>frame</code>, <code>iframe</code>, <code>img</code>, and <code>map</code> est déprécié et ne peut plus être employé en <acronym>XHTML</acronym>.</p>
    <h4>Gestion des caractères spéciaux avec <code>CDATA</code>
    </h4>
    <p>
      <acronym>XHTML</acronym> est beaucoup plus sensible que ne l'était <acronym>HTML</acronym> aux caractères spéciaux dans les déclarations <acronym title="Cascading Style Sheets" lang="en">CSS</acronym> et JavaScript. Vous ne pouvez plus inclure les blocs de code dans des balises de commentaires comme en <acronym>HTML</acronym> : en effet, les navigateurs supportant <acronym>XML</acronym> peuvent réagir de manière inattendue à la présence de ces caractères et simplement les ignorer, affichant ainsi le contenu des éléments <code>script</code> et <code>style</code>. Afin d'éviter un tel désastre, il est recommandé d'entourer les scripts et les styles d'une section <code>CDATA</code>, qui indiquera aux navigateurs <acronym>XML</acronym> que les caractères spéciaux inclus doivent être interprétés normalement.</p>
    <pre>
&lt;script language="javascript" type="text/javascript"&gt;
&lt;![CDATA[Votre code javascript...]]&gt;
 &lt;/script&gt;
      </pre>
    <p>Toutefois, cela ne règle que partiellement le problème puisque les navigateurs <acronym>HTML</acronym> ignorent le contenu d'une balise <acronym>XML</acronym>
      <code>CDATA</code> et requièrent l'utilisation traditionnelle des commentaires <acronym>HTML</acronym>. La seule solution viable à ce jour consiste donc à placer toutes les définitions de <acronym>CSS</acronym> ou de JavaScript dans des fichiers externes.</p>
    <h4>Gestion des caractères spéciaux dans les <acronym>URL</acronym>
    </h4>
    <p>Les caractères spéciaux présents dans les valeurs d'attributs s'avèrent également catastrophiques en <acronym>XHTML</acronym>. Afin de contrer le problème, vous devez nécessairement les encoder afin d'éviter que le navigateur ne les interprète de façon erronée. Ainsi, pour tous les caractères spéciaux comme « &lt; », « &gt; » ou « &amp; » destinés à être interprétés tels quels, vous devrez plutôt inscrire « &amp;lt; », « &amp;gt; » ou « &amp;amp; » :</p>
    <p>Invalide :</p>
    <pre>&lt;a href="index.php?a=1&amp;b=2" title="Articles &amp;amp; Didacticiels"&gt;</pre>
    <p>Valide :</p>
    <pre>&lt;a href="index.php?a=1&amp;amp;b=2" title="Articles &amp;amp; Didacticiels"&gt;</pre>
    <h3>Conformité et type de document</h3>
    <p>Afin d'être conforme aux normes <acronym>XHTML</acronym>, outre les spécificités de syntaxe <acronym>XML</acronym> décrites précédemment, un document doit respecter les règles suivantes :</p>
    <h4>Prologue <acronym>XML</acronym> et encodage de caractères</h4>
    <p>La déclaration <acronym>XML</acronym>
      <code>&lt;?xml?&gt;</code> est une composante recommandée du document <acronym>XHTML</acronym>. Cette déclaration l'identifie en effet comme appartenant au cadre <acronym>XML</acronym> et en décrit la version.</p>
    <p>Son support inégal dans les principaux navigateurs et <a href="/articles/dimensions_boites_css/">ses conséquences sur le rendu <acronym>CSS</acronym>
      </a> incitent parfois à l'omettre.
      </p>
    <p>Cependant, comme elle permet de spécifier l'encodage de caractères spéciaux dans le document, choisir de l'omettre expose à un rendu incorrect de ces mêmes caractères. Le cas typique est celui des documents rédigés en français, qui utilisent des caractères spéciaux n'appartenant pas à l'encodage <acronym>ASCII</acronym>.</p>
    <p>Tout dépend donc de l'encodage choisi :</p>
    <ul>
      <li>avec les encodages par défaut du <acronym>XML</acronym> (<em>
          <acronym>UTF</acronym>-8</em> et <em>
          <acronym>UTF</acronym>-16</em>), le prologue <acronym>XML</acronym> est optionnel, et une balise <code>meta</code> précisera l'encodage approprié pour les anciens navigateurs :
<code>&lt;meta http-equiv="content-type" content="text/html; charset=UTF-8" /&gt;</code> ;</li>
      <li>
        <p>avec d'autres encodages (<acronym title="International Standard Organization" lang="en">ISO</acronym>-8859-1 par exemple), il faut :</p>
        <ul>
          <li>soit inclure en tête du document le prologue :
                <code>&lt;?xml version="1.0" encoding="iso-8859-1"?&gt;</code>
                ainsi que la balise <code>meta</code> pour les vieux navigateurs qui ignoreront ce prologue ;
              </li>
          <li>ou encore spécifier l'encodage au niveau supérieur, c'est-à-dire dans l'en-tête <acronym title="HyperText Transfer Protocol" lang="en">HTTP</acronym> serveur.</li>
        </ul>
      </li>
    </ul>
    <h4>Utilisation de la déclaration de type de document</h4>
    <p>Le document doit respecter les normes de validation d'une des trois <acronym title="Document Type Definition" lang="en">DTD</acronym>
      <acronym>XHTML</acronym> : <code>strict</code>, <code>transitional</code> ou <code>frameset</code>. Une déclaration de type de document doit apparaître dans le document juste avant l'élément <code>html</code> (qui est l'élément racine de tout document <acronym>XHTML</acronym>).</p>
    <ul>
      <li>La <acronym>DTD</acronym> stricte n'autorise pas l'utilisation des anciens éléments de présentation (<code>s</code>, <code>u</code>, etc.) mais elle a l'avantage de contraindre le développeur à séparer structure et présentation, avec les facilités de maintenance que cela apporte.</li>
      <li>La <acronym>DTD</acronym> transitionnelle est plus permissive et plus proche des anciennes habitudes liées à <acronym>HTML</acronym> 3.2. Les balises dépréciées en <acronym>XHTML</acronym> strict y sont autorisées : le recours à cette <acronym>DTD</acronym> est donc plus facile dans un premier temps, mais avec le défaut de mêler encore partiellement structure et présentation.</li>
      <li>Enfin, la <acronym>DTD</acronym>
        <code>frameset</code> permet l'utilisation des cadres. Ceux-ci tombent en désuétude, mais peuvent se réveler encore utiles dans certains cas très exceptionnels.</li>
    </ul>
    <pre>
&lt;!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
 "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"&gt;
&lt;!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
 "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"&gt;
&lt;!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Frameset//EN"
 "http://www.w3.org/TR/xhtml1/DTD/xhtml1-frameset.dtd"&gt;
      </pre>
    <h4>
      <code>html</code>, l'élément racine du document <acronym>XHTML</acronym>
    </h4>
    <p>L'élément racine d'un document doit impérativement être l'élément <code>html</code> et celui-ci se doit d'avoir un espace de nom (namespace) utilisant l'attribut <code>"xmlns"</code> et une déclaration de la langue utilisée principalement dans le document. Par exemple :</p>
    <pre>&lt;html xmlns="http://www.w3.org/1999/xhtml" xml:lang="fr"&gt;</pre>
    <h3>Gabarits prêts à l'emploi</h3>
    <h4>Gabarit <acronym>XHTML</acronym> strict</h4>
    <p>Encodage <acronym>ISO</acronym>-8859-1 :</p>
    <pre>
&lt;?xml version="1.0" encoding="iso-8859-1"?&gt;
&lt;!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
 "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"&gt;
&lt;html xmlns="http://www.w3.org/1999/xhtml" xml:lang="fr"&gt;
  &lt;head&gt;
    &lt;title&gt;Votre titre&lt;/title&gt;
    &lt;meta http-equiv="Content-Type" content="text/HTML; charset=iso-8859-1" /&gt;
  &lt;/head&gt;
  &lt;body&gt;
    …votre code…
  &lt;/body&gt;
&lt;/html&gt;
</pre>
    <p>Encodage <acronym>UTF</acronym>-8 ou <acronym>UTF</acronym>-16 :</p>
    <pre>
&lt;!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
 "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"&gt;
&lt;html xmlns="http://www.w3.org/1999/xhtml" xml:lang="fr"&gt;
  &lt;head&gt;
    &lt;title&gt;Votre titre&lt;/title&gt;
    &lt;meta http-equiv="Content-Type" content="text/HTML; charset=utf-8" /&gt;
  &lt;/head&gt;
  &lt;body&gt;
    …votre code…
  &lt;/body&gt;
&lt;/html&gt;
      </pre>
    <h4>Gabarit <acronym>XHTML</acronym> transitional</h4>
    <p>Encodage <acronym>ISO</acronym>-8859-1 :</p>
    <pre>
&lt;?xml version="1.0" encoding="iso-8859-1"?&gt;
&lt;!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
 "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"&gt;
&lt;html xmlns="http://www.w3.org/1999/xhtml" xml:lang="fr"&gt;
  &lt;head&gt;
    &lt;title&gt;Votre titre&lt;/title&gt;
    &lt;meta http-equiv="Content-Type" content="text/HTML; charset=iso-8859-1" /&gt;
  &lt;/head&gt;
  &lt;body&gt;
    …votre code…
  &lt;/body&gt;
&lt;/html&gt;
      </pre>
    <p>Encodage <acronym>UTF</acronym>-8 ou <acronym>UTF</acronym>-16 :</p>
    <pre>
&lt;!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
 "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"&gt;
&lt;html xmlns="http://www.w3.org/1999/xhtml" xml:lang="fr"&gt;
  &lt;head&gt;
    &lt;title&gt;Votre titre&lt;/title&gt;
    &lt;meta http-equiv="Content-Type" content="text/HTML; charset=utf-8" /&gt;
  &lt;/head&gt;
  &lt;body&gt;
    …votre code…
  &lt;/body&gt;
&lt;/html&gt;
      </pre>
    <h3>Conclusion</h3>
    <p>Comme vous pouvez le constater, faire la transition vers le <acronym>XHTML</acronym> ne demande pas un grand effort d'adaptation et vous ouvre les portes de la technologie <acronym>XML</acronym>. En y conformant vos documents dès aujourd'hui, vous assurerez la pérennité de vos pages Web et commencerez dès lors à profiter des <a href="/articles/pourquoi_standards/">avantages induits par l'applications des standards Web</a>.</p>
  </body>
</html>
