As of 22 April 2009 this website is 'frozen' in time — see the current IFLA websites
This old website and all of its content will stay on as archive – http://archive.ifla.org
SGML est un langage générique pour définir la structure logique et baliser des classes de documents selon un format générique. Ce langage peut être appliqué à n'importe quel type de document comme par exemple un livre, un article de périodique, la documentation technique aéronautique, un dictionnaire et évidemment une notice bibliographique.
Les documents SGML sont codés dans un format normalisé indépendant de la plate-forme de création ou d'utilisation, ce qui garantit la pérennité de l'information à long terme et est très important pour une bibliothèque.
Actuellement SGML est utilisé non seulement pour la création des documents, mais aussi pour l'échange, le stockage, la recherche documentaire, l'impression ou la visualisation des documents. Des outils assez professionnels sont disponibles commercialement pour mettre en oeuvre toute la panoplie des applications possibles.
SGML est en cours d'implémentation pour le traitement des données dans de grands organismes officiels et chez les éditeurs majeurs, pour la création, le stockage et quelquefois la fourniture de l'information. C'est aussi le format générique que l'on retrouve dans tous les projets de bibliothèque électronique visant à prendre en compte à la fois la structure logique du document textuel et l'information bibliographique qui lui est associée.
Le TEI (Text Encoding Initiative) est une application internationale de SGML dans le domaine des sciences humaines et des industries de la langue. Elle permet au chercheur utilisateur d'étendre la structure pour son propre usage en utilisant SGML pour baliser le document primaire textuel. Comme SGML est très souvent évoqué en tant que concurrent et que successeur potentiel des formats MARC, il est important de comprendre son fonctionnement, les différents niveaux d'usage qu'il autorise pour le traitement de l'information bibliographique et d'en déduire l'intérêt potentiel pour les bibliothèques, au moment où elles réfléchissent sur les besoins fonctionnels de l'information bibliographique dans l'environnement électronique.
La DTD définit les éléments logiques constitutifs d'un type de document ainsi que leur structure hiérarchique Ces éléments simples ou composés peuvent être qualifiés par des attributs. Des entités externes, telles que du texte, des images ou de la vidéo, peuvent être ancrées à un endroit spécifique du document permettant le traitement du multimédia. Le langage SGML permet également de créer des liens à l'intérieur d'un même document ou entre documents différents, à n'importe quel niveau de la structure, permettant ainsi la navigation hypertexte.
Un document codé en SGML contient des portions de texte balisées par des étiquettes logiques de début et de fin définies dans la DTD correspondant à ce type de document. Pour utiliser un document codé en SGML avec un outil SGML il faut avoir la DTD correspondante. Une DTD propriétaire peut accompagner le document qu'elle régit lors d'un échange ou il peut simplement être fait référence à la DTD si elle est connue des partenaires de l'échange. Certaines DTD sont dans le domaine public ou sont normalisées et sont proposées comme des outils de base dans les éditeurs SGML commerciaux.
Une des principales différences entre la structure des formats MARC et SGML est la profondeur des structures qui peuvent être décrites à l'aide de SGML comparée à la structure plate des formats MARC. SGML permet de décrire la structure d'une collection de documents puis la structure interne des parties composantes en réutilisant des blocs de structure élémentaire à différents niveaux de la hiérarchie. On peut réutiliser les mêmes outils pour la codification du format ou pour son exploitation à n'importe quel niveau de la hiérarchie ou de blocs imbriqués. Des utilisateurs peuvent compléter la structure et ajouter des balises pour leur propre usage. Les bibliographes peuvent ajouter des metadata (données sur les données), les indexeurs peuvent ajouter des metadata sujet, un chercheur en linguistique peut ajouter des metadata de linguistique.
Exemples :
Exemple : é pour la lettre e avec un accent aigu doit être affiché é
<!DOCTYPE ARTICLE PUBLIC "-//USA/AAP//DTD ART-1//EN" "article.dtd" [ <!ENTITY Darc CDATA "SoftQuad Explorer(tm)"> <!ENTITY nbsp CDATA " "> ]> <ARTICLE><FM><TIG><ATL>Flexible Management of SGML-encoded Documents </ATL> <SBT>Design Principles in &Darc;</SBT></TIG> <AU><FNM>Donald</FNM><SNM>Broady</SNM><DEG>Ph.D.</DEG> <AFF><ONM>University of Stockholm</ONM> <ODV>Project manager</ODV> <EAD>broady@nada.kth.se</EAD></AFF></AU> <AU><FNM>Hasse</FNM><SNM>Haitto</SNM><DEG>M.Sc.</DEG> <AFF><ONM>Royal Institute of Technology</ONM> <ODV>Project coordinator</ODV> <EAD>haitto@nada.kth.se</EAD></AFF> </AU> <ABS><P>&Darc; is a multi-user, cross-platform (PC/Windows 3.1 and Sun SPARC/X11) database and information retrieval application designed primarily for documents marked-up with SGML . Among its features is a full-text document browser, in which markup-based hypertext linking is complemented by interactive, on-line linking and annotation facilities through concurrent webs. Cooperative work is supported through a novel hierarchical user group mechanism</P></ABS></FM> <BDY><SEC><ST>Keywords</ST> <L1><LI><P>SGML</P></LI> <LI> <P>Hypertext</P></LI> <LI> <P>Databases</P></LI> <LI> <P>Information Retrieval</P></LI></L1> </SEC>
On peut saisir toute cette information ou insérer les balises à un fichier textuel préexistant en utilisant soit un simple traitement de texte soit un éditeur SGML offrant des fonctionnalités d'affichage WYSIWYG (What You See Is What You Get), des fonctionnalités de contrôle interactif et une aide contextuelle pour faciliter l'insertion des balises à un endroit donné de la structure.
Un outil SGML, grâce à l'utilisation d'une feuille de style définissant la mise en page, permet de voir le document en cachant les balises. Evidemment différentes feuilles de style produisent autant de mises en page différentes pour un même document SGML.
Aujourd'hui SGML est vu soit comme un simple format d'échange, soit comme un format de création ou de traitement, selon la façon dont on considère le catalogage et ses objectifs et selon le type de document.
SGML est un format d'échange normalisé pour n'importe quelle information structurée et peut évidemment s'appliquer à l'échange de données bibliographiques. Il est possible d'écrire une DTD ISO 2709/MARC reflétant la structure d'un enregistrement ISO 2709 associé à un format MARC particulier et à des jeux de caractères donnés.
Plusieurs DTD USMARC sont déjà disponibles. La plus détaillée est réalisée par la Bibliothèque du Congrès et une version alpha de test est disponible sur le site Web du Library of Congress Network Development and MARC Standards Office. Il y a une DTD pour les données bibliographiques et une DTD pour les données d'autorité. L'objectif de ce projet est de créer des DTDs standards pour permettre la conversion de données de catalogage entre la structure ISO 2709/USMARC et la structure SGML dans les deux sens sans perte de d'information. Le projet comporte également la possibilité de développer des utilitaires de conversion entre les deux formats. Voici la structure générale de la DTD bibliographique jusqu'au niveau des sous-champs.
La Bibliothèque de l'Université de Berkeley offre également une DTD ISO 2709/USMARC moins sophistiquée, ainsi que les outils de conversion. Cette DTD est destinée à permettre l'utilisation de SGML comme format support pour les notices dans le catalogue en ligne sur le campus de Berkeley.
· Lien bibliographique avec les éditeurs
Les grands éditeurs, principalement dans le secteur STM (Sciences, Techniques et Médecine) sont en train d'introduire SGML comme format support de leur chaîne de production. Cette migration leur permet de créer plusieurs produits à partir d'une seule saisie.
Par exemple Elsevier Science offre commercialement au bibliothèques et bases de données les notices bibliographiques des articles codées en SGML, selon la DTD Elsevier qui est publique, via le service électronique CAP-CAS.
On peut donc imaginer de demander la même information pour les livres en utilisant le format SGML pour les éditeurs qui le pratiquent.
Je pense cependant que le principal intérêt d'utiliser SGML se manifeste dans les cas suivants :
Dans le second cas, toute l'information descriptive du document textuel, habituellement copiée directement dans le document, peut être utilisée directement dans le document si elle est correctement balisée par l'éditeur ou par le traitement de catalogage.
Plusieurs approches sont tentées. Par exemple le TEI (Text Encoding Initiave) introduit un en-tête au document lui-même pour contenir l'information bibliographique. Une autre approche est celle des propositions de métadonnées pour les besoins des applications HTML du Web.
Mais toutes ces propositions résultent de la même analyse : il existe un besoin d'inclure les données descriptives et les données à valeur ajoutée dans le document électronique lui-même.
ftp://library.berkeley.edu/pub/sgml/marcdtd
ftp://ftp.loc.gov/pub/marcdtd