63rd IFLA General Conference - Conference Programme and Proceedings - August 31- September 5, 1997

Caracteristiques de l’information disponible sur le world wide web

Edward T. O’Neill
OCLC Online Computer library center Inc
Dublin, Ohio 43017

ABSTRACT

Le développement rapide du World Wide Web a créé des sources d’information nouvelles et importantes, qui rivalisent, voire remplacent celles détenues par nos grandes bibliothèques. Néanmoins, malgré la popularité grandissante du Web, les types de documents qui y sont disponibles sont encore mal connus. Cet article présente une méthodologie destinée à rassembler un échantillon représentatif des documents disponibles sur le Web et propose des analyses destinées aux bibliothèques et à la communauté des utilisateurs d’Internet afin de qualifier les sources d’information.

PAPER

En cinq ans, le World Wide Web est devenu une source importante pour la littérature scientifique et a transformé radicalement la façon dont l’information est distribuée et utilisée. Les ressources disponibles sur le Web dépassent, du moins en nombre, celles de nos grandes bibliothèques. L’an dernier, Inktomi1 estimait qu’il y avait un total de 50 millions de documents sur le Web dont le volume atteindrait environ un demi teraoctet. La taille du Web et sa croissance explosive qui ne montre aucun signe de ralentissement ne laissent aucun doute sur son intérêt pour les bibliothèques et leurs usagers.

ARRIERE-PLAN

Le World Wide Web est une forme d’accès à Internet. Utilisant des butineurs spécifiques (comme Netscape ou Internet Explorer), les usagers peuvent avoir accès à une série de services d’Internet. En outre, le Web dispose de son propre protocole appelé Hypertext Transfer Protocol (HTPP) qui permet la transmission de documents hypertextes. La souplesse du Web et le fait qu’il puisse transmettre des documents hypertextes graphiques en ont fait le composant d’Internet le plus populaire.

Bien que le Web soit maîtrisé techniquement, on connaît mal la nature des documents qui sont disponibles et qui forment le Web. Une chose est claire : le Web est un ensemble de documents créés par des auteurs et des éditeurs disposant d’un serveur Web. Le Web n’a pas de politique de sélection, à l’inverse des bibliothèques où des décisions sont prises sur les documents qui seront acquis et conservés dans les collections. En opposition avec les politiques d’acquisition définies par les bibliothèques, le Web semble être le résultat d’une campagne très réussie d’incitation aux dons, qui inclurait le bon, le mauvais et l’horrible.

Du point de vue du contenu, le Web reste un mystère. Nous connaissons mal les sources des documents, les types de documents disponibles, leur valeur, les langues utilisées, l’âge ou la longévité des documents, l’étendue des sujets traités, ainsi que d’autres caractéristiques décrivant une collection d’informations. Peu d’études ont été menées sur le contenu en raison de son instabilité et du développement erratique du Web. General Magic2, une source de statistiques récemment utilisée par le magazine Time3, a estimé le nombre de sites Web à 400 000 tandis que Gray4 donnait le chiffre de 650 000.

Les usagers peuvent avoir accès au Web depuis leur bureau, leur école, leur maison et leur bibliothèque publique quand elle propose des terminaux en accès public. Pour continuer à fournir aux usagers une assistance de qualité en matière de recherche et d’utilisation, les bibliothèques ont besoin de statistiques fiables décrivant la source d’information pléthorique et inestimable qu’est le Web. Comme préliminaire à l’étude décrite ici, OCLC a fait des recherches sur le Web et dans des documents papier pour trouver des statistiques fiables et exhaustives décrivant le contenu des pages Web. Aucune n’a été trouvée qui puisse aider les bibliothèques et leurs usagers. Cette étude a donc été entreprise pour modifier cette situation afin d’identifier les contenus du Web et produire des statistiques utiles pour la communauté des bibliothèques.

PAGES WEB

Le Web utilise sa propre terminologie pour décrire le stockage, la maintenance et la diffusion de ses documents. Les termes les plus importants pour l’étude décrite ci-dessous sont home pages (pages d’accueil), pages Web statiques et interactives et sites Web.

L’entrée dans le Web se fait par la page d’accueil qui est à peu près équivalente à la page de titre dans un environnement imprimé. La page d’accueil fournit généralement des informations générales sur le site mais peut aussi fonctionner comme une table des matières.

Après la page d’accueil, l’unité bibliographique fondamentale du Web est la page Web (un document Web, un fichier HTTP). La page Web est une entité distincte qui est identifiée par une adresse unique appelée Uniform Resource Locator ou URL. Il y a deux types de pages Web : statique et interactive.

Une page Web statique est un document qui peut être lu de haut en bas sans quitter le document. A moins qu’elle ne soit modifiée, la page Web statique présente la même information à tous les usagers.

Une page Web interactive est un document élaboré qui utilise des programmes externes pour réaliser des fonctions spécifiques. Ces pages interactives permettent aux usagers de soumettre des formulaires, d’interroger des bases de données, de formater des résultats, de structurer l’affichage et d’avoir accès à des parties du site protégées par un mot de passe. Un bon exemple de site interactif est celui de la compagnie Delta Airlines5. Plutôt que de chercher dans des tableaux d’horaires de vol imprimés, les usagers entrent l’information nécessaire pour obtenir un document contenant l’information pertinente (à savoir un horaire d’avion).

Un site Web est un ensemble de pages Web liées entre elles et qui sont hébergées sur un serveur particulier.

RECUEILLIR DES EXTRAITS DE PAGES WEB

La taille imposante du Web interdit toute analyse exhaustive de son contenu. La meilleure approche possible est le recueil d’extraits de pages Web. Cet échantillon doit être assez large pour être représentatif de la diversité des informations du Web et assez petit pour être géré facilement. Cet échantillon ne doit pas être biaisé afin de permettre des extrapolations sur le Web dans son ensemble.

Le Web inclut des sites Intranet protégés par des garde-barrières (firewalls), des pages qui ne sont consultables qu’après paiement d’une redevance, des pages qui nécessitent d’avoir une autorisation d’accès ou tout autre moyen de restriction.

Cette étude utilise un échantillonnage de groupe dans lequel le site Web devient l’unité d’échantillonnage et la page Web la sous-unité. L’échantillonnage de groupe est bien adapté aux pages Web puisqu’il n’y a pas de liste des sous-unités. Un échantillon aléatoire de sites Web sera sélectionné et les données seront prises dans chaque page Web du site. La méthodologie de l’échantillonnage de groupe est bien expliquée par Cochran6. L’adresse IP (Internet Protocol) sera utilisée pour identifier les sites Web. Chaque site a une adresse unique, un identifiant numérique sur 32 bits, son adresse IP. Cette adresse est divisée en quatre octets de 8 bits chacun, habituellement séparés par des points (ex : 132.174.1.5). Comme chaque octet est composé de 8 bits, il peut prendre des valeurs comprises entre 8 et 255 ce qui crée 4 milliards de possibilités d’adresses.

Chaque site Web a une adresse IP unique mais chaque adresse IP ne correspond pas à un site Web. Plusieurs adresses IP sont associées avec d’autres services Internet comme la messagerie électronique ou le transfert de fichiers (FTP) ; certains sites ne sont pas consultables par le public ; certaines adresses IP n’ont pas encore été attribuées. La faible proportion d’adresses IP associées à des services Web complique la collecte des données mais ne nuit pas à la validité de l’échantillon. Chaque site Web a une chance équivalente d’être sélectionné dans l’échantillon. Toutefois, le nombre de sites Web dans l’échantillon définitif sera inférieur au nombre d’adresses IP sélectionnées.

L’échantillonnage lui-même sera fait en trois temps. Tout d’abord, un échantillon aléatoire sera constitué. Ensuite un programme automatique tentera de se connecter au port 80 (port standard pour les serveurs W3) de chaque adresse IP pour déterminer si cette adresse a un site Web public. Enfin, les contenus de chaque site seront collectés en déchargeant tous les fichiers HTML de ce site.

Le recueil des données débutera en juin 1997 et continuera pendant l’été. Une première analyse sera disponible à la fin de l’été afin que des résultats détaillés soient disponibles pour la conférence. Nous pensons que cette analyse donnera des statistiques fiables à la fois sur l’orientation thématique et les caractéristiques de l’information disponible sur le Web.

ANALYSE

Les bibliothèques et la communauté des utilisateurs d’Internet ont besoin de statistiques fiables sur la taille du Web et sur le contenu des pages Web. Ces statistiques doivent être basées sur une méthodologie éprouvée et ayant donné lieu à des publications. Les statistiques sont nécessaires pour :

le nombre de sites Web.
le nombre de pages Web statiques.
la taille moyenne des pages statiques.
le nombre de pages Web interactives.

La nature différente des pages Web statiques et interactives exige un traitement différent. Par exemple, alors que l’on peut estimer la taille d’une page Web statique, la taille moyenne d’une page interactive n’a pas de sens. En général, le service produit par une page interactive est plus important que le texte lui-même. Une petite page interactive peut être l’équivalent de plusieurs volumes de tableaux ou fournir un service qui n’a pas d’équivalent papier.

Ces estimations ressemblent plus à celles qui sont rassemblées par les éditeurs qu’à celles faites par les bibliothèques puisqu’elles reflètent ce qui est publié sur le Web. Pour évaluer la nature de cette information publiée, il faut créer des catégories de types d’information. Pour cette étude, chaque page Web extraite de l’échantillon sera rangée sous les catégories suivantes :

Non-fiction : rapports, articles scientifiques, commentaires, essais, éditoriaux, monographies;
Fiction/Distraction : humour, fiction, jeux, documents liés aux loisirs
Référence/Index : pages d’accueil, index, résumés, tableaux statistiques, annuaires, profils, bibliographies, guides, information biographique/autobiographique, références à d’autres ressources
Institutionnelle : vente en ligne, publicités, information commerciale, catalogues, modes d’emploi, documents promotionnels, descriptions des établissements
Personnelle : pages réservées à une information sur un individu ou un groupe.

Ces catégories ne se recoupent pas. Des tests préliminaires ont montré que ces catégories sont pertinentes même si elles ne sont pas exhaustives. Vraisemblablement, d’autres catégories ou sous-catégories devront être ajoutées à cette liste. Elles seront identifiées au cours de l’analyse.

D’autres statistiques seront estimées à partir de l’échantillon :

la répartition par langue
la répartition par lieu d’édition
l’âge moyen de la page Web.

Bien que l’échantillon soit limité aux pages accessibles directement, nous rassemblerons des informations sur les pages qui ne sont pas publiques. Mis à part les sites Web sur Intranet, la plupart de ces pages sont accessibles via une page de passerelle. Ces dernières sont des pages publiques qui seront prises dans l’échantillon. Ces pages de passerelle fourniront une information suffisante pour estimer le nombre de documents non consultables directement et d’identifier des types communs de pages à la diffusion contrôlée.

CONCLUSIONS

Le World Wide Web est une ressource d’information importante et en croissance. Néanmoins, on connaît mal les caractéristiques des pages Web. Les statistiques fiables sont rares. La procédure d’échantillonnage décrite dans ce papier est basée sur la méthode de l’échantillonnage de groupe et peut être utilisée pour constituer un échantillon représentatif des pages Web accessibles directement. L’analyse qui en sera faite doit donner des statistiques exhaustives et précises sur la taille et les caractéristiques de l’information accessible sur le Web.

REFERENCES

Inktomi Corporation, « the Inktomi Technology Behind HotBot », A White Paper, 1996,(5-23-97).
Rutkowski, Tony, « Internet Trends », General Magic, February 1997, (5-14-97)
Wright, Robert, « Tge Man Who Invented the Web, » Time, Vol.149, No 20, May 19, 1997, pp. 64-68.
Gray, Matthew, « Web Growth Data », March 19, 1997, (5-15-97)
Delta Airlines, May 9, 1997, (5-23-97)
Cochran, Willian G. Sampling Techniques. Third edition, John Wiley & Sons, New York, 1977.

Traduit de l’anglais par Gaëlle Bequet
Direction du livre et de la lecture - Ministère de la culture
Août 1997