Terme unique en anglais standard, en français nous parlons de normes et de standards. Les deux termes se différencient essentiellement au niveau des acteurs en jeu et des procédures de consensus attachées. La norme désigne un savoir ou un savoir faire technique mis en forme collectivement et rendu officiel par un organisme de normalisation (ISO, AFNOR…). Le standard est un ensemble de recommandations développées et préconisées par un groupe représentatif d’utilisateurs (W3C, IETF, DCMI…).
Les standards sont nécessaires car ils facilitent considérablement l’interopérabilité. Il en existe une grande variété. De très nombreux sont complémentaires (UNIMARC, EAD, EAC, MPEG-2, LOM) mais certains peuvent être concurrents (MARC21, UNIMARC, MARCXML, BiblioML).
Les standards utilisés dans la manipulation des métadonnées sont généralement divisés en trois niveaux :
- logique pour le protocole d’interopérabilité.
Par exemple, le RDF (Ressource Description Framework) peut-être considéré comme un métalangage qui donne un cadre formel aux métadonnées sans toutefois préciser la sémantique des ressources.
- sémantique pour des jeux d’éléments descriptifs (Dublin Core)
- syntaxique, c'est-à-dire le format d’écriture (HTML, XML…)
Langage XML (Extensible Mark-up Language)
Langage développé à l'initiative du W3C, conçu en 1996, et qui est dérivé de SGML. XML a pour but d'étendre les possibilités de HTML. La simplicité de XML vient du fait qu'au contraire de HTML, XML ne prend en charge que la structure logique, la présentation étant assurée par les feuilles de style. XML est donc un SGML dont la syntaxe simplifiée, plus flexible, représente en outre un format d’échange d’objets universel. Il peut être utilisé pour représenter des structures de données complexes. Tout document XML est constitué d’un arbre, structure hiérarchique formée d’une racine et de nœuds. On parle de sous-arbre, de noeud parent, ancêtre, enfant ou fils, frère. Un document XML est considéré comme "bien formé" s'il respecte la syntaxe XML sans suivre aucun modèle. Il est considéré comme "valide" s'il est conforme à un modèle pré-déclaré, DTD ou schéma.
Langage SGML (Standard Generalized Mark-Up)
Le SGML est un méta-langage informatique pour le balisage du texte, né en 1986 (norme ISO 8879). Un document en langage SGML comporte trois éléments : la déclaration (décrit le milieu de traitement requis) ; la définition de document type (DTD) ; et la suite de documents elle-même. Le langage SGML est indépendant de tout système, appareil, langage ou application.
DTD (Défintion de type de document)
La définition de type de document décrit la structure d'un document XML, c'est-à-dire l'ordre, l'imbrication et le caractère obligatoire ou facultatif des éléments qui le composent. On déclare la DTD dans le document XML ou dans un fichier externe.
XSL (eXensible Stylesheet Language)
Langage de description de feuilles de style compatible avec CSS, dont il est un "sur-ensemble". Une feuille de style XSL est un fichier qui décrit comment doivent être présentés les documents XML (elle est elle-même un fichier XML).
La spécification du W3C est divisée en trois parties :
- XSLT, le langage de transformation
- XPath, le langage de navigation dans un document XML
- XSL-FO, le vocabulaire XML de mise en forme
Il existe un certain nombre d’outils qui permettent d’aspirer les sites internet. L’outil le plus adapté me semble être le logiciel HTTrack (utilisé, je crois, par la Bnf). Issu du monde du logiciel libre, HTTrack permet de télécharger un site Internet sur son disque dur, en construisant récursivement tous les répertoires.
La technique utilisée est proche de celle des moteurs de recherche ; c’est un robot qui parcourt les liens (internes et externes) du site. Il réorganise la structure des liens en relatif, peut mettre à jour le contenu d'un site déjà archivé ou reprendre un téléchargement interrompu. Le robot est configurable ; on peut notamment choisir la profondeur des liens, définir la taille des fichiers, les règles d’inclusion ou d’exclusion de certains formats de fichiers...
Une procédure automatique ?
Même si la collecte par robot permet théoriquement de conserver les liens et la capacité à naviguer dans les sites archivés, le contrôle humain reste indispensable. HTTrack produit automatiquement une page d’index qui regroupe l’ensemble des sites archivés. Pour peu qu’un lien renvoie vers un site qui ne fait pas partie de la sélection initiale il sera tout de même archivé en partie ou totalement (option profondeur des liens) ; un "nettoyage" de cette liste produite de manière automatique est donc indispensable d'autant plus que les titres que le robot tire des titres de page nécessitent souvent d'être modifiés.
De plus, il arrive que la copie de certains sites, mal aspirés une première fois, doive être relancée. L’ensemble de ces contrôles est manuel. La vérification des liens entre sites aspirés fait aussi partie de ce nécessaire contrôle.
D’autre part, un tel archivage se heurte à des difficultés techniques, notamment dans le cas des sites web dynamiques (qui fonctionnent avec des bases de données).
Présentation de Httrack : http://www.httrack.com/
Quand ?
Les métadonnées sont créées de façon automatique ou manuelle.
Une partie est générée en même temps que le document lui-même, d’autres sont créées tout au long de la vie du document.
Remplir les champs de la fenêtre « Propriétés » d’un document ou renseigner le contenu des balises méta d’une page HTML (<meta name="xxx" ... > : description, keywords, author…) revient à produire des métadonnées.
Qui ?
Cela varie selon les disciplines, la ressource décrite, les outils disponibles, mais c’est souvent le fruit d’un travail collaboratif.
Les auteurs ou créateurs du document, les professionnels de l’information, le producteur ou l'éditeur du site peuvent être amenés à créer des métadonnées.
Certaines métadonnées peuvent être renseignées par l’auteur du document lui-même (le titre, par exemple). Néanmoins, les créateurs de données numériques ne sont pas toujours les mieux placés ; non seulement la constitution des métadonnées peut-être longue et coûteuse, mais elle requiert des compétences particulières.
En raison de la nécessité d’une approche professionnelle du traitement de l’information, il est préférable que cette opération relève d’un spécialiste (bibliothécaire, documentaliste). Sans un contrôle terminologique de base, des métadonnées incohérentes ou incorrectes peuvent dégrader de façon importante la qualité des résultats d'une recherche.
Tout document électronique possède au moins une métadonnée incorporée : son nom de fichier. Les métadonnées peuvent être internes ou externes à la ressource décrite :
- encapsulées, « embarquées » dans la ressource (fichier commun ressource-métadonnées : page html, document TEI, EAD)
- séparées de la ressource et stockées dans une base de données (catalogue bibliographique électronique). Elles peuvent être exportées séparément et associées à nouveau
- externes à la ressource mais livrées en même temps qu’elle (les propriétés d’un document Office qui ne migrent pas en même temps que celui-ci)
Toutes les métadonnées externes à la ressource peuvent courir le risque d’être perdues lors d’une migration d’un format à un autre.

