Dans le prolongement du numéro de Matériaux pour l’histoire de notre temps consacré à la
question des archives électroniques des mouvements sociaux (Internet et mouvements sociaux : nouvelles pratiques militantes, nouvelles sources pour l’histoire, n° 79, juillet-septembre 2005), la BDIC, le CODHOS et le Centre d'Histoire sociale du XXème siècle ont organisé une table ronde sur ce thème le 12 janvier dernier à l’Université Paris X – Nanterre.
Afin que les futurs historiens du social puissent travailler à partir de ces nouvelles sources il faut que des politiques d’archivage électronique soient dès à présent mises en place.
Il est donc grand temps de tenter de répondre à des questions cruciales : quelles archives doit-on conserver ? qui devra se charger de ce travail ? et avec quels moyens, que ceux-ci soient financiers, techniques ou humains ? Quelles formes de coopérations sont possibles dans ce domaine ?
Au vu de l’étendue du champ concerné (les « mouvements sociaux »), et compte tenu de la masse de documents électroniques désormais produits par les différents acteurs de ce domaine, les réponses à ces questions seront nécessairement le résultat de réflexions collectives et partagées. »
La réunion d’acteurs d’horizons si divers est suffisamment rare pour être soulignée même s’il faut bien reconnaître qu’il n’a pas toujours été simple de s’accorder sur un langage commun… !
Je vous livre ici quelques unes de mes notes, un peu plus fournies quant aux projets institutionnels et à l'archivage du web.
On parle de born-digital archives - archives électroniques natives (sites web, blogs, courriel...)
I - Projets institutionnels
La Bnf et l’archivage du web – Catherine Lupovici & Gildas Ilien
L’International Internet Preservation Consortium (IIPC) piloté par la BNF et créée à son initiative en 2003 oeuvre pour une collaboration internationale en matière de préservation des contenus en ligne. Le Consortium comprend également la Bibliothèque du Congrès, la British Library et les bibliothèques nationales d'Australie, du Canada, du Danemark, de la Finlande, d'Islande, d'Italie, de Norvège, de Suède, à qui s'est jointe la fondation américaine Internet Archive.
Les différentes étapes dans l'archivage du web :
- Expérimentation de 1998 à 2004 : collecte automatique à grande échelle et collecte automatique ciblée ; constitution des premières collections
- Passage en mode « opérationnel » depuis 2005 ; attente de la loi et de son décret d’application pour 2007
Quelques chiffres :
- instantané du domaine .fr (fin 2004-début 2005) : 118 millions de fichiers – 3 téraoctets
- instantané (printemps 2004) des domaines génériques et français : 2 128 milliards de fichiers – 21 téraoctets
En cours :
- instantané du domaine .fr : 140 millions de fichiers
- collectes automatiques ciblées de 4000 sites : 40 millions de fichiers (dont 1/3 de blogs)
- copies d’instantanés historiques 2001-2003 : 38 téraoctets
Ces chiffres donnent le vertige !
En revanche et malgré ces chiffres, la Bnf "avoue" qu'il est rare d'obtenir un document complet lorsque celui-ci est complexe (base de données...). Cela implique différents modes de collecte.
L’unité documentaire = le site et ses liens
1 – Des étudiants de Sciences-Po vont travailler sur le corpus des élections (2002 & 2004)
2 – Préparation de la collecte pour la campagne électorale de 2007 ; collaboration avec d’autres institutions et organismes pour le repérage des sites.
Expérimentations à l’INA dans le cadre du dépôt légal – Thomas Drugeon
De nouveaux enjeux apparaissent : archivage d’un medium interactif, hétérogénéité et évolution des formats (notamment streaming), domaine en perpétuelle évolution.
La collecte de sites est lancée grâce à la détection automatique des mises à jour, l’INA ayant développé ses propres outils.
Archives de France et archives électroniques – Françoise Banat-Berger (DAF)
L’archivage électronique a longtemps été réduit à l’archivage de statistiques (INED, INSEE) conservées jusque-là au Centre des Archives contemporaines de Fontainebleau (CAC).
Préconisations :
- prévoir des migrations de support
- archiver les métadonnées des documents électroniques en même temps que le document lui-même.
Rappel du nouveau contexte juridique avec la loi du 13 mars 2000 ; les informations électroniques ont une valeur probante au même titre que les informations sur support papier ; nouvelle production issue de l’e-administration.
Le projet Migr’archives - Dana Diminescu (Groupe d’Etudes sur l’usage des TIC dans les migrations, EHESS)
Le projet Migr’archives est un programme d'archivage de sites web destiné aux
chercheurs sur les migrations. Il est développé en collaboration avec l’INA.
Il permet à chaque chercheur de se constituer son propre corpus de sites web et d’effectuer sa collecte à l’aide d’un robot configuré avec des mots clefs.
A noter la parution du numéro 23 de la revue Migrance, « Les documents numériques : méthodologie d’archivage et perspectives de recherche sur les migrations ».
Les archives du forum social européen 2003 - Jérôme Malois & Cécile Milot (Université de Bourgogne)
Le programme a ici consisté à collecter l'ensemble des échanges électroniques au sein de l'organisation du forum social européen de 2003.
Le travail en amont avec le producteur se révèle indispensable.
Collecte des documents sur les ordinateurs personnels des organisateurs (mais il manque le contexte de production), collecte des listes de diffusion, formats très divers...
La publication d’un instrument de recherche avec Pleade (Arkeia et DTD EAD) est prévue.
Un standard de métadonnées consensuel établi par professionnels provenant de diverses disciplines telles que la bibliothéconomie, l'informatique, le balisage de textes, la communauté muséologique et d'autres domaines connexes s'est donc développé depuis lors, appelé le Dublin Core. Dublin en référence à la ville dans laquelle s'est tenue la conférence. Core utilisé pour signifier l'aspect central, le noyau des métadonnées minimales sans lesquelles l'information ne peut pas être considérée comme exploitable.
Le Dublin Core se veut international et extensible. C’est un schéma de métadonnées générique et simple qui permet de décrire n'importe quelle ressource électronique et d’établir logiquement des relations avec d'autres ressources.
Le Dublin Core non qualifié (norme ISO 15836 depuis février 2003) repose sur 15 éléments de base (The Dublin Core Metadata Element Set) que sont le titre, le créateur, l'éditeur, le sujet, la description, la source, la langue, la relation, la couverture, la date, le type, le format, l'identificateur, le collaborateur et les droits.
Chaque élément est optionnel et peut être répété. Chaque élément possède également un ensemble limité de qualificatifs, des attributs qui peuvent être utilisés afin de raffiner davantage (et non pas étendre) la signification de l'élément. Les 15 éléments de base se répartissent en 3 groupes :
- Contenu (7 éléments : titre, sujet et mots-clefs, description, source, langue, relation, couverture)
- Propriété intellectuelle (4 éléments : créateur, éditeur, contributeur, droits)
- Instance particulière (4 éléments : date, type, format, identifiant)
Voir aussi :
* Dublin Core Metadata Initiative
* JACQUET, Christophe. Métadonnées et Dublin Core.
Terme unique en anglais standard, en français nous parlons de normes et de standards. Les deux termes se différencient essentiellement au niveau des acteurs en jeu et des procédures de consensus attachées. La norme désigne un savoir ou un savoir faire technique mis en forme collectivement et rendu officiel par un organisme de normalisation (ISO, AFNOR…). Le standard est un ensemble de recommandations développées et préconisées par un groupe représentatif d’utilisateurs (W3C, IETF, DCMI…).
Les standards sont nécessaires car ils facilitent considérablement l’interopérabilité. Il en existe une grande variété. De très nombreux sont complémentaires (UNIMARC, EAD, EAC, MPEG-2, LOM) mais certains peuvent être concurrents (MARC21, UNIMARC, MARCXML, BiblioML).
Les standards utilisés dans la manipulation des métadonnées sont généralement divisés en trois niveaux :
- logique pour le protocole d’interopérabilité.
Par exemple, le RDF (Ressource Description Framework) peut-être considéré comme un métalangage qui donne un cadre formel aux métadonnées sans toutefois préciser la sémantique des ressources.
- sémantique pour des jeux d’éléments descriptifs (Dublin Core)
- syntaxique, c'est-à-dire le format d’écriture (HTML, XML…)
Langage XML (Extensible Mark-up Language)
Langage développé à l'initiative du W3C, conçu en 1996, et qui est dérivé de SGML. XML a pour but d'étendre les possibilités de HTML. La simplicité de XML vient du fait qu'au contraire de HTML, XML ne prend en charge que la structure logique, la présentation étant assurée par les feuilles de style. XML est donc un SGML dont la syntaxe simplifiée, plus flexible, représente en outre un format d’échange d’objets universel. Il peut être utilisé pour représenter des structures de données complexes. Tout document XML est constitué d’un arbre, structure hiérarchique formée d’une racine et de nœuds. On parle de sous-arbre, de noeud parent, ancêtre, enfant ou fils, frère. Un document XML est considéré comme "bien formé" s'il respecte la syntaxe XML sans suivre aucun modèle. Il est considéré comme "valide" s'il est conforme à un modèle pré-déclaré, DTD ou schéma.
Langage SGML (Standard Generalized Mark-Up)
Le SGML est un méta-langage informatique pour le balisage du texte, né en 1986 (norme ISO 8879). Un document en langage SGML comporte trois éléments : la déclaration (décrit le milieu de traitement requis) ; la définition de document type (DTD) ; et la suite de documents elle-même. Le langage SGML est indépendant de tout système, appareil, langage ou application.
DTD (Défintion de type de document)
La définition de type de document décrit la structure d'un document XML, c'est-à-dire l'ordre, l'imbrication et le caractère obligatoire ou facultatif des éléments qui le composent. On déclare la DTD dans le document XML ou dans un fichier externe.
XSL (eXensible Stylesheet Language)
Langage de description de feuilles de style compatible avec CSS, dont il est un "sur-ensemble". Une feuille de style XSL est un fichier qui décrit comment doivent être présentés les documents XML (elle est elle-même un fichier XML).
La spécification du W3C est divisée en trois parties :
- XSLT, le langage de transformation
- XPath, le langage de navigation dans un document XML
- XSL-FO, le vocabulaire XML de mise en forme
Il existe un certain nombre d’outils qui permettent d’aspirer les sites internet. L’outil le plus adapté me semble être le logiciel HTTrack (utilisé, je crois, par la Bnf). Issu du monde du logiciel libre, HTTrack permet de télécharger un site Internet sur son disque dur, en construisant récursivement tous les répertoires.
La technique utilisée est proche de celle des moteurs de recherche ; c’est un robot qui parcourt les liens (internes et externes) du site. Il réorganise la structure des liens en relatif, peut mettre à jour le contenu d'un site déjà archivé ou reprendre un téléchargement interrompu. Le robot est configurable ; on peut notamment choisir la profondeur des liens, définir la taille des fichiers, les règles d’inclusion ou d’exclusion de certains formats de fichiers...
Une procédure automatique ?
Même si la collecte par robot permet théoriquement de conserver les liens et la capacité à naviguer dans les sites archivés, le contrôle humain reste indispensable. HTTrack produit automatiquement une page d’index qui regroupe l’ensemble des sites archivés. Pour peu qu’un lien renvoie vers un site qui ne fait pas partie de la sélection initiale il sera tout de même archivé en partie ou totalement (option profondeur des liens) ; un "nettoyage" de cette liste produite de manière automatique est donc indispensable d'autant plus que les titres que le robot tire des titres de page nécessitent souvent d'être modifiés.
De plus, il arrive que la copie de certains sites, mal aspirés une première fois, doive être relancée. L’ensemble de ces contrôles est manuel. La vérification des liens entre sites aspirés fait aussi partie de ce nécessaire contrôle.
D’autre part, un tel archivage se heurte à des difficultés techniques, notamment dans le cas des sites web dynamiques (qui fonctionnent avec des bases de données).
Présentation de Httrack : http://www.httrack.com/


