Le développement rapide du World Wide Web a créé des sources d’information nouvelles et importantes, qui rivalisent, voire remplacent celles détenues par nos grandes bibliothèques. Néanmoins, malgré la popularité grandissante du Web, les types de documents qui y sont disponibles sont encore mal connus. Cet article présente une méthodologie destinée à rassembler un échantillon représentatif des documents disponibles sur le Web et propose des analyses destinées aux bibliothèques et à la communauté des utilisateurs d’Internet afin de qualifier les sources d’information.
En cinq ans, le World Wide Web est devenu une source importante pour la littérature scientifique et a transformé radicalement la façon dont l’information est distribuée et utilisée. Les ressources disponibles sur le Web dépassent, du moins en nombre, celles de nos grandes bibliothèques. L’an dernier, Inktomi1 estimait qu’il y avait un total de 50 millions de documents sur le Web dont le volume atteindrait environ un demi teraoctet. La taille du Web et sa croissance explosive qui ne montre aucun signe de ralentissement ne laissent aucun doute sur son intérêt pour les bibliothèques et leurs usagers.
Bien que le Web soit maîtrisé techniquement, on connaît mal la nature des documents qui sont disponibles et qui forment le Web. Une chose est claire : le Web est un ensemble de documents créés par des auteurs et des éditeurs disposant d’un serveur Web. Le Web n’a pas de politique de sélection, à l’inverse des bibliothèques où des décisions sont prises sur les documents qui seront acquis et conservés dans les collections. En opposition avec les politiques d’acquisition définies par les bibliothèques, le Web semble être le résultat d’une campagne très réussie d’incitation aux dons, qui inclurait le bon, le mauvais et l’horrible.
Du point de vue du contenu, le Web reste un mystère. Nous connaissons mal les sources des documents, les types de documents disponibles, leur valeur, les langues utilisées, l’âge ou la longévité des documents, l’étendue des sujets traités, ainsi que d’autres caractéristiques décrivant une collection d’informations. Peu d’études ont été menées sur le contenu en raison de son instabilité et du développement erratique du Web. General Magic2, une source de statistiques récemment utilisée par le magazine Time3, a estimé le nombre de sites Web à 400 000 tandis que Gray4 donnait le chiffre de 650 000.
Les usagers peuvent avoir accès au Web depuis leur bureau, leur école, leur maison et leur bibliothèque publique quand elle propose des terminaux en accès public. Pour continuer à fournir aux usagers une assistance de qualité en matière de recherche et d’utilisation, les bibliothèques ont besoin de statistiques fiables décrivant la source d’information pléthorique et inestimable qu’est le Web. Comme préliminaire à l’étude décrite ici, OCLC a fait des recherches sur le Web et dans des documents papier pour trouver des statistiques fiables et exhaustives décrivant le contenu des pages Web. Aucune n’a été trouvée qui puisse aider les bibliothèques et leurs usagers. Cette étude a donc été entreprise pour modifier cette situation afin d’identifier les contenus du Web et produire des statistiques utiles pour la communauté des bibliothèques.
L’entrée dans le Web se fait par la page d’accueil qui est à peu près équivalente à la page de titre dans un environnement imprimé. La page d’accueil fournit généralement des informations générales sur le site mais peut aussi fonctionner comme une table des matières.
Après la page d’accueil, l’unité bibliographique fondamentale du Web est la page Web (un document Web, un fichier HTTP). La page Web est une entité distincte qui est identifiée par une adresse unique appelée Uniform Resource Locator ou URL. Il y a deux types de pages Web : statique et interactive.
Une page Web statique est un document qui peut être lu de haut en bas sans quitter le document. A moins qu’elle ne soit modifiée, la page Web statique présente la même information à tous les usagers.
Une page Web interactive est un document élaboré qui utilise des programmes externes pour réaliser des fonctions spécifiques. Ces pages interactives permettent aux usagers de soumettre des formulaires, d’interroger des bases de données, de formater des résultats, de structurer l’affichage et d’avoir accès à des parties du site protégées par un mot de passe. Un bon exemple de site interactif est celui de la compagnie Delta Airlines5. Plutôt que de chercher dans des tableaux d’horaires de vol imprimés, les usagers entrent l’information nécessaire pour obtenir un document contenant l’information pertinente (à savoir un horaire d’avion).
Un site Web est un ensemble de pages Web liées entre elles et qui sont hébergées sur un serveur particulier.
Le Web inclut des sites Intranet protégés par des garde-barrières (firewalls), des pages qui ne sont consultables qu’après paiement d’une redevance, des pages qui nécessitent d’avoir une autorisation d’accès ou tout autre moyen de restriction.
Cette étude utilise un échantillonnage de groupe dans lequel le site Web devient l’unité d’échantillonnage et la page Web la sous-unité. L’échantillonnage de groupe est bien adapté aux pages Web puisqu’il n’y a pas de liste des sous-unités. Un échantillon aléatoire de sites Web sera sélectionné et les données seront prises dans chaque page Web du site. La méthodologie de l’échantillonnage de groupe est bien expliquée par Cochran6. L’adresse IP (Internet Protocol) sera utilisée pour identifier les sites Web. Chaque site a une adresse unique, un identifiant numérique sur 32 bits, son adresse IP. Cette adresse est divisée en quatre octets de 8 bits chacun, habituellement séparés par des points (ex : 132.174.1.5). Comme chaque octet est composé de 8 bits, il peut prendre des valeurs comprises entre 8 et 255 ce qui crée 4 milliards de possibilités d’adresses.
Chaque site Web a une adresse IP unique mais chaque adresse IP ne correspond pas à un site Web. Plusieurs adresses IP sont associées avec d’autres services Internet comme la messagerie électronique ou le transfert de fichiers (FTP) ; certains sites ne sont pas consultables par le public ; certaines adresses IP n’ont pas encore été attribuées. La faible proportion d’adresses IP associées à des services Web complique la collecte des données mais ne nuit pas à la validité de l’échantillon. Chaque site Web a une chance équivalente d’être sélectionné dans l’échantillon. Toutefois, le nombre de sites Web dans l’échantillon définitif sera inférieur au nombre d’adresses IP sélectionnées.
L’échantillonnage lui-même sera fait en trois temps. Tout d’abord, un échantillon aléatoire sera constitué. Ensuite un programme automatique tentera de se connecter au port 80 (port standard pour les serveurs W3) de chaque adresse IP pour déterminer si cette adresse a un site Web public. Enfin, les contenus de chaque site seront collectés en déchargeant tous les fichiers HTML de ce site.
Le recueil des données débutera en juin 1997 et continuera pendant l’été. Une première analyse sera disponible à la fin de l’été afin que des résultats détaillés soient disponibles pour la conférence. Nous pensons que cette analyse donnera des statistiques fiables à la fois sur l’orientation thématique et les caractéristiques de l’information disponible sur le Web.
La nature différente des pages Web statiques et interactives exige un traitement différent. Par exemple, alors que l’on peut estimer la taille d’une page Web statique, la taille moyenne d’une page interactive n’a pas de sens. En général, le service produit par une page interactive est plus important que le texte lui-même. Une petite page interactive peut être l’équivalent de plusieurs volumes de tableaux ou fournir un service qui n’a pas d’équivalent papier.
Ces estimations ressemblent plus à celles qui sont rassemblées par les éditeurs qu’à celles faites par les bibliothèques puisqu’elles reflètent ce qui est publié sur le Web. Pour évaluer la nature de cette information publiée, il faut créer des catégories de types d’information. Pour cette étude, chaque page Web extraite de l’échantillon sera rangée sous les catégories suivantes :
Ces catégories ne se recoupent pas. Des tests préliminaires ont montré que ces catégories sont pertinentes même si elles ne sont pas exhaustives. Vraisemblablement, d’autres catégories ou sous-catégories devront être ajoutées à cette liste. Elles seront identifiées au cours de l’analyse.
D’autres statistiques seront estimées à partir de l’échantillon :
Bien que l’échantillon soit limité aux pages accessibles directement, nous rassemblerons des informations sur les pages qui ne sont pas publiques. Mis à part les sites Web sur Intranet, la plupart de ces pages sont accessibles via une page de passerelle. Ces dernières sont des pages publiques qui seront prises dans l’échantillon. Ces pages de passerelle fourniront une information suffisante pour estimer le nombre de documents non consultables directement et d’identifier des types communs de pages à la diffusion contrôlée.
Traduit de l’anglais par Gaëlle Bequet
Direction du livre et de la lecture - Ministère de la culture
Août 1997