Blog2Doc

 

Mardi 13 décembre 2005

Langage XML (Extensible Mark-up Language)
Langage développé à l'initiative du W3C, conçu en 1996, et qui est dérivé de SGML. XML a pour but d'étendre les possibilités de HTML. La simplicité de XML vient du fait qu'au contraire de HTML, XML ne prend en charge que la structure logique, la présentation étant assurée par les feuilles de style. XML est donc un SGML dont la syntaxe simplifiée, plus flexible, représente en outre un format d’échange d’objets universel. Il peut être utilisé pour représenter des structures de données complexes. Tout document XML est constitué d’un arbre, structure hiérarchique formée d’une racine et de nœuds. On parle de sous-arbre, de noeud parent, ancêtre, enfant ou fils, frère.
Un document XML est considéré comme "bien formé" s'il respecte la syntaxe XML sans suivre aucun modèle. Il est considéré comme "valide" s'il est conforme à un modèle pré-déclaré, DTD ou schéma.

Langage SGML (Standard Generalized Mark-Up)

Le SGML est un méta-langage informatique pour le balisage du texte, né en 1986 (norme ISO 8879). Un document en langage SGML comporte trois éléments : la déclaration (décrit le milieu de traitement requis) ; la définition de document type (DTD) ; et la suite de documents elle-même. Le langage SGML est indépendant de tout système, appareil, langage ou application.
 

DTD (Défintion de type de document)
La définition de type de document décrit la structure d'un document XML, c'est-à-dire l'ordre, l'imbrication et le caractère obligatoire ou facultatif des éléments qui le composent. On déclare la DTD dans le document XML ou dans un fichier externe.

XSL (eXensible Stylesheet Language)
Langage de description de feuilles de style compatible avec CSS, dont il est un "sur-ensemble". Une feuille de style XSL est un fichier qui décrit comment doivent être présentés les documents XML (elle est elle-même un fichier XML).
La spécification du W3C est divisée en trois parties :
- XSLT, le langage de transformation
- XPath, le langage de navigation dans un document XML
- XSL-FO, le vocabulaire XML de mise en forme

Mardi 13 décembre 2005

Il existe un certain nombre d’outils qui permettent d’aspirer les sites internet. L’outil le plus adapté me semble être le logiciel HTTrack (utilisé, je crois, par la Bnf). Issu du monde du logiciel libre, HTTrack permet de télécharger un site Internet sur son disque dur, en construisant récursivement tous les répertoires.
La technique utilisée est proche de celle des moteurs de recherche ; c’est un  robot qui parcourt les liens (internes et externes) du site. Il réorganise la structure des liens en relatif, peut mettre à jour le contenu d'un site déjà archivé ou reprendre un téléchargement interrompu. Le robot est configurable ; on peut notamment choisir la profondeur des liens, définir la taille des fichiers, les règles d’inclusion ou d’exclusion de certains formats de fichiers...

Une procédure automatique ?
Même si la collecte par robot permet théoriquement de conserver les liens et la capacité à naviguer dans les sites archivés, le contrôle humain reste indispensable. HTTrack produit automatiquement une page d’index qui regroupe l’ensemble des sites archivés. Pour peu qu’un lien renvoie vers un site qui ne fait pas partie de la sélection initiale il sera tout de même archivé en partie ou totalement (option profondeur des liens) ; un "nettoyage" de cette liste produite de manière automatique est donc indispensable d'autant plus que les titres que le robot tire des titres de page nécessitent souvent d'être modifiés.
De plus, il arrive que la copie de certains sites, mal aspirés une première fois, doive être relancée. L’ensemble de ces contrôles est manuel. La vérification des liens entre sites aspirés fait aussi partie de ce nécessaire contrôle.
D’autre part, un tel archivage se heurte à des difficultés techniques, notamment dans le cas des sites web dynamiques  (qui fonctionnent avec des bases de données). Le dépôt légal des sites auprès de la BNF, projet de loi en préparation pour 2006-2007, sera peut-être une réponse à ces difficultés…

Présentation de Httrack : http://www.httrack.com/

 

Calendrier

Décembre 2005
L M M J V S D
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31  
<< < > >>

Recherche

W3C

  • Feed RSS 2.0
  • Feed ATOM 1.0
  • Feed RSS 2.0
 
créer un photo blog sur over-blog.com - Contact - C.G.U. - Rémunération en droits d'auteur avec TF1 Network - Signaler un abus