Il existe un certain nombre d’outils qui permettent d’aspirer les sites internet. L’outil le plus adapté me semble être le logiciel HTTrack (utilisé, je crois, par la Bnf). Issu du monde du logiciel libre, HTTrack permet de télécharger un site Internet sur son disque dur, en construisant récursivement tous les répertoires.
La technique utilisée est proche de celle des moteurs de recherche ; c’est un robot qui parcourt les liens (internes et externes) du site. Il réorganise la structure des liens en relatif, peut mettre à jour le contenu d'un site déjà archivé ou reprendre un téléchargement interrompu. Le robot est configurable ; on peut notamment choisir la profondeur des liens, définir la taille des fichiers, les règles d’inclusion ou d’exclusion de certains formats de fichiers...
Une procédure automatique ?
Même si la collecte par robot permet théoriquement de conserver les liens et la capacité à naviguer dans les sites archivés, le contrôle humain reste indispensable. HTTrack produit automatiquement une page d’index qui regroupe l’ensemble des sites archivés. Pour peu qu’un lien renvoie vers un site qui ne fait pas partie de la sélection initiale il sera tout de même archivé en partie ou totalement (option profondeur des liens) ; un "nettoyage" de cette liste produite de manière automatique est donc indispensable d'autant plus que les titres que le robot tire des titres de page nécessitent souvent d'être modifiés.
De plus, il arrive que la copie de certains sites, mal aspirés une première fois, doive être relancée. L’ensemble de ces contrôles est manuel. La vérification des liens entre sites aspirés fait aussi partie de ce nécessaire contrôle.
D’autre part, un tel archivage se heurte à des difficultés techniques, notamment dans le cas des sites web dynamiques (qui fonctionnent avec des bases de données).
Présentation de Httrack : http://www.httrack.com/
Commentaires
Aucun commentaire pour cet article
Trackbacks
Aucun trackback pour cet article


