Blog2Doc

 

Mardi 13 décembre 2005

Il existe un certain nombre d’outils qui permettent d’aspirer les sites internet. L’outil le plus adapté me semble être le logiciel HTTrack (utilisé, je crois, par la Bnf). Issu du monde du logiciel libre, HTTrack permet de télécharger un site Internet sur son disque dur, en construisant récursivement tous les répertoires.
La technique utilisée est proche de celle des moteurs de recherche ; c’est un  robot qui parcourt les liens (internes et externes) du site. Il réorganise la structure des liens en relatif, peut mettre à jour le contenu d'un site déjà archivé ou reprendre un téléchargement interrompu. Le robot est configurable ; on peut notamment choisir la profondeur des liens, définir la taille des fichiers, les règles d’inclusion ou d’exclusion de certains formats de fichiers...

Une procédure automatique ?
Même si la collecte par robot permet théoriquement de conserver les liens et la capacité à naviguer dans les sites archivés, le contrôle humain reste indispensable. HTTrack produit automatiquement une page d’index qui regroupe l’ensemble des sites archivés. Pour peu qu’un lien renvoie vers un site qui ne fait pas partie de la sélection initiale il sera tout de même archivé en partie ou totalement (option profondeur des liens) ; un "nettoyage" de cette liste produite de manière automatique est donc indispensable d'autant plus que les titres que le robot tire des titres de page nécessitent souvent d'être modifiés.
De plus, il arrive que la copie de certains sites, mal aspirés une première fois, doive être relancée. L’ensemble de ces contrôles est manuel. La vérification des liens entre sites aspirés fait aussi partie de ce nécessaire contrôle.
D’autre part, un tel archivage se heurte à des difficultés techniques, notamment dans le cas des sites web dynamiques  (qui fonctionnent avec des bases de données). Le dépôt légal des sites auprès de la BNF, projet de loi en préparation pour 2006-2007, sera peut-être une réponse à ces difficultés…

Présentation de Httrack : http://www.httrack.com/

par CC-Blog2doc publié dans : Archivage du web
 

Calendrier

Mai 2008
L M M J V S D
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31  
<< < > >>

Recherche

W3C

  • Feed RSS 2.0
  • Feed ATOM 1.0
  • Feed RSS 2.0
 
blog economie sur over-blog.com - Contact - C.G.U. - Rémunération en droits d'auteur avec TF1 Network - Signaler un abus