1982 CERN: L'expérience Stella ou les débuts de l'internet civil, donc l'ancètre du W.W.W. Il y a 40 ans

août, 1982

Genève, Centre Européen de Recherche Nucléaire

Centre Européen de Recherches Nucléaire

En triant mes archives je suis tombé sur cette description de Stella, la 1ère expérience d'échange de données, par satellite, entres laboratoire civils.

Le même CERN qui des années plus tard créera le Web (WWW) dont voici une description tirée de Wikipédia

Le World Wide Web, idée proposée le 13 Mars 1989 et mis en oeuvre en 1990

Littéralement la « toile (d’araignée) mondiale », abrégé www ou le Web), la Toile mondiale ou la Toile1, est un système hypertexte public fonctionnant sur Internet. Le Web permet de consulter, avec un navigateur, des pages accessibles sur des sites. L’image de la toile d’araignée vient des hyperliens qui lient les pages web entre elles.

Le Web n’est qu’une des applications d’Internet, distincte d’autres applications comme le courrier électronique, la visioconférence et le partage de fichiers en pair à pair. Inventé en 1989-1990 par Tim Berners-Lee suivi de Robert Cailliau, c'est le Web qui a rendu les médias grand public attentifs à Internet. Depuis, le Web est fréquemment confondu avec Internet ; en particulier, le mot Toile est souvent utilisé dans les textes non techniques sans qu'il soit clair si l'auteur désigne le Web ou Internet.

Terminologie

Synonymes de World Wide Web

Le World Wide Web est désigné par de nombreux noms et abréviations synonymes : WorldWideWeb, World Wide Web, World-wide Web, Web, WWW, W3, Toile d’araignée mondiale, Toile mondiale, Toile. Certains ont disparu. Le nom du projet originel « WorldWideWeb » est mentionné pour la première fois dans une publication de 1990. Les mots ont été rapidement séparés en World Wide Web pour améliorer la lisibilité. Le nom World-Wide Web a également été utilisé par les inventeurs du Web, mais le nom désormais préconisé par le World Wide Web Consortium (W3C) sépare les trois mots sans trait d’union. Bien que « mondial » s’écrive world-wide ou worldwide en anglais, l’orthographe World Wide Web et l’abréviation Web sont maintenant bien établies. Le terme World Wide Web est une allitération appartenant au domaine des virelangues.

En inventant le Web, Tim Berners-Lee avait aussi pensé à d’autres noms, comme Information Mesh (maillage d’informations), Mine of Information ou encore The Information Mine (la mine d’informations, dont le sigle serait Tim). Le sigle WWW a été largement utilisé pour abréger World Wide Web avant que l’abréviation Web prenne le pas. WWW se prononce souvent trois double V, triple double V, vévévé ou wéwéwé (en Belgique). La prononciation laborieuse (en français comme en anglais) de WWW a sans doute précipité son déclin à l’oral. À l’écrit, les lettres www restent très utilisées dans les adresses Web et quelques autres conventions techniques. WWW est parfois abrégé en W3, abréviation qu’on retrouve dans le sigle W3C du World Wide Web Consortium. Dans la seconde moitié des années 1990, une blague répandue prétendait que WWW signifiait World Wide Wait, soit « attente mondiale », car le réseau Internet était engorgé par la popularité grandissante du Web.

Pour écrire « le web », l’usage de la minuscule est de plus en plus courant. L’Office québécois de la langue française préconise l'emploi de la majuscule dans ses propres communications, mais reconnait tout de même explicitement la validité de la minuscule initiale. En France, la Commission générale de terminologie préconise à partir de 1999 l'usage de la traduction « toile d’araignée mondiale », puis à partir de 2018 les termes de « toile » et « toile mondiale ».

Termes rattachés au web

L’expression « en ligne » signifie « connecté à un réseau », en l’occurrence le réseau informatique Internet. Cette expression n’est donc pas propre au web, mais à Internet dans sa globalité, on la retrouve également à propos des réseaux téléphoniques.

Un hôte est un ordinateur en ligne. Chaque hôte d'Internet est identifié par une adresse IP à laquelle correspondent zéro, un ou plusieurs noms d'hôte.

Une ressource du World Wide Web est une entité informatique (texte, image, forum Usenet, boîte aux lettres électronique, etc.) accessible indépendamment d’autres ressources. Une ressource en accès public est librement accessible depuis tout Internet. Lorsqu’une ressource est présente sur l’hôte de l’utilisateur, elle est dite locale ; par opposition elle est distante si elle est présente sur un hôte différent. Lorsque celle-ci est connectée et disponible au réseau, elle est en ligne. On ne peut accéder à une ressource distante qu’en respectant un protocole de communication. Les fonctionnalités de chaque protocole varient : réception, envoi, voire échange continu d’informations.

HTTP (pour HyperText Transfer Protocol) est le protocole de communication communément utilisé pour transférer les ressources du Web. HTTPS est la variante avec authentification et chiffrement.

Une URL (pour Uniform Resource Locator, signifiant littéralement « localisateur de ressource uniforme ») est une chaîne de caractères décrivant l’emplacement d’une ressource.

Elle contient généralement dans l’ordre :

le nom du protocole,

un deux-points (:),

deux barres obliques (//),

un nom d’hôte,

une barre oblique (/),

un chemin composé de texte séparés par des barres obliques.

Exemple :example.com/un/chemin/page.htm...

Dans la langue courante informelle, on parle aussi d'adresse web au lieu d'URL. En outre, lorsque l'on donne une adresse web, on omet généralement la partie initiale en http:// ou https:// des URL.

Un hyperlien (ou dans le langage courant, un lien) est un élément dans une ressource qui est associé à une URL. Les hyperliens du web sont orientés : ils permettent d’aller d’une source à une destination. Seule la ressource à la source contient les données définissant l’hyperlien. Ainsi, il est possible d’établir un hyperlien sans la moindre intervention, ni coopération, de la ressource cible de l’hyperlien. Ce modèle unilatéral adopté par le Web ne se retrouve pas dans tous les systèmes hypertextes. Il a l’avantage prépondérant, dans un réseau public mondial, de permettre la création d’innombrables hyperliens entre partenaires décentralisés et non coordonnés.

HTML (pour HyperText Markup Language) et XHTML (Extensible HyperText Markup Language) sont les langages informatiques permettant de décrire le contenu d’un document (titres, paragraphes, disposition des images, etc.) et d’y inclure des hyperliens. Un document HTML est un document décrit avec le langage HTML.

Dans un mode de communication client-serveur, un serveur est un hôte sur lequel fonctionne un logiciel serveur auquel peuvent se connecter des logiciels clients fonctionnant sur des hôtes clients, un seul hôte peut contenir les deux.

Serveur HTTP

Un serveur HTTP (ou service web) est un logiciel utilisé pour servir des ressources à travers le protocole HTTP. Un client HTTP est un logiciel utilisé pour manipuler ces ressources.

Un serveur web est un hôte sur lequel fonctionne un serveur HTTP (ou service web). Un serveur web peut héberger les ressources qu’il dessert, peut les récupérer sur des hôtes distants, délivrer ces ressources telles quelles (on parlera alors de ressources statiques), ou bien les modifier en fonction de différents critères, on parlera alors de ressources dynamiques. Il est courant sur les services de grosse taille que les ressources soient réparties sur différents serveurs Web et éventuellement différents types de serveurs HTTP, certains ayant de meilleures performances pour servir des ressources stockées dans des fichiers, d’autre plus de souplesse pour calculer les ressources à la demande. Un serveur web peut être un hôte spécialisé, une partie d’une infrastructure spécialisée ou bien encore un hôte plus généraliste. On appelle site web, l’ensemble des ressources HTTP associées à un nom de domaine et un ou plusieurs noms d’hôte.

Client HTTP

Un client HTTP est un outil permettant d’utiliser les ressources fournies par un serveur HTTP. Il est chargé, en relation avec différents services, de faire traduire le nom d’hôte en adresse IP par un DNS, d'entrer en contact avec le serveur HTTP et de lui fournir différentes informations telles que le nom du site, et la ressource désirée, ainsi que ses capacités (gestion de différents types de ressource, capacité d’affichage, possibilité de compression de données, etc.) ou sa volonté (choix des langues, protection de la vie privée) dans l’utilisation des données fournies.

Un navigateur web est un type de logiciel client HTTP à interface homme-machine et conçu pour accéder aux ressources du web. Sa fonction de base est de permettre la consultation des documents HTML disponibles sur les serveurs HTTP. Le support d’autres types de ressources et d’autres protocoles de communication dépend du type de navigateur.

Un robot d’indexation est, dans le domaine du web, un type de logiciel client HTTP, utilisé pour indexer les différentes ressources de sites web.

Un agrégateur est, dans le domaine du web, un type de logiciel client HTTP, permettant de regrouper les fils de syndication de différents sites web.

Un aspirateur de site web est un client HTTP permettant de récupérer l’intégralité d’un site web, pour le consulter ensuite hors-ligne ou en conserver une archive.

Documents

Une page web (ou page) est un document destiné à être consulté avec un navigateur web. Une page web est toujours constituée d’une ressource centrale (généralement un document HTML ou XHTML) et d’éventuelles ressources liées, automatiquement accessibles (par exemple, des images, des feuilles de style, des scripts javascript ou des fontes de caractères). Il n’est pas exceptionnel qu’un seul document HTML fasse appel à entre quelques dizaines et une centaine de ressources annexes.

Un éditeur HTML (ou éditeur web) est un logiciel conçu pour faciliter l’écriture de documents HTML et de pages web en général.

Un site web (ou site) est un ensemble de pages web et d’éventuelles autres ressources, liées dans une structure cohérente, publiées par un propriétaire (une entreprise, une administration, une association, un particulier, etc.) et hébergées sur un ou plusieurs serveurs web. La page correspondant à l'URL racine d'un site Web est la page d'accueil.

Un système de gestion de contenu (Content Management System, abrégé CMS) est un logiciel permettant de gérer le contenu d'un site.

Consultation et mesure

Visiter un site web signifie « consulter ses pages ». Le terme visite vient du fait que l’on consulte généralement plusieurs pages d’un site, comme on visite les pièces d’un bâtiment. La visite est menée par un utilisateur (visiteur ou internaute).

L’expression « surfer sur le web » signifie « consulter le web ». Elle a été inventée pour mettre l’accent sur le fait que consulter le web consiste à suivre de nombreux hyperliens de page en page. Elle est principalement utilisée par les médias ; elle n’appartient pas au vocabulaire technique.

On appelle référent, la ressource ayant conduit un visiteur à une ressource servie. Elles sont données par défaut par la majorité des clients HTTP, mais peuvent être bloquées.

La mesure de l’audience est l’étude des consultations effectuées sur un site, elle vise à comprendre les désirs des utilisateurs, en fonction des ressources les plus utilisées et du fil d’Ariane de ceux-ci.

La mesure d’audience peut se faire de différentes manières :

analyse des journaux du serveur. Les calculs de mesure de l’audience peuvent alors être effectués en temps réel au moment de la visite, ou bien en différé ;

utilisation de scripts sur le serveur web lui-même ;

utilisation d’images invisibles déportées sur un serveur web tiers (mesure d’audience simple) ;

utilisation de script en langage JavaScript et envoi des informations au serveur web ou à un serveur tiers (mesure d’audience plus complète).

Métiers du web

On appelle hébergeur web une personne physique ou morale qui propose des serveurs Web à la location.

Une agence web est une entreprise de services informatiques réalisant des sites web pour ses clients.

Un développeur web est un programmeur spécialisé dans les technologies du Web.

Types de services web

Un service web est une technologie client-serveur fondée sur les protocoles du web.

Un annuaire web est un site web répertoriant des sites web.

Un moteur de recherche est un site permettant de rechercher des mots dans l’ensemble des sites web.

Un portail web est un site web tentant de regrouper la plus large palette d’informations et de services possibles dans un site web. Certains portails sont thématiques.

Un agrégateur web est un site web qui sélectionne, organise et, éventuellement, valide des pages concernant un sujet précis, et les met en forme de façon ergonomique ou attractive.

Un blog est une partie de site web où sont régulièrement publiés des articles personnels.

Un webmail est site web fournissant les fonctionnalités d'un client de messagerie de courrier électronique.

Un wiki est un site web éditable par les utilisateurs.

Histoire

Chronologie

Les premières années de cet historique sont largement issues de A Little History of the World Wide Web (Une petite histoire du World Wide Web).

1989

Le 13 mars, Tim Berners-Lee, engagé au CERN à Genève en 1984 pour travailler sur l’acquisition et le traitement des données, propose de développer un système hypertexte organisé en Web, afin d’améliorer la diffusion des informations internes : Information Management: A Proposal.

1990

Le premier serveur web, un NeXT Cube.

Robert Cailliau rejoint le projet et collabore à la révision de la proposition : WorldWideWeb: Proposal for a HyperText Project.

Étendue : Le premier serveur web est nxoc01.cern.ch ; la première page web est nxoc01.cern.ch/hypertext/WWW/T... ; la plus ancienne page conservée en l'état date du 13 novembre.

Logiciels : Le premier navigateur web, appelé WorldWideWeb (plus tard rebaptisé Nexus) est développé en Objective C sur NeXT25. En plus d’être un navigateur, WorldWideWeb est un éditeur web. Le navigateur mode texte line-mode est développé en langage C pour être portable sur les nombreux modèles d’ordinateurs et simples terminaux de l’époque.

Technologies : Les trois technologies à la base du web, URL, HTML et HTTP, sont à l’œuvre. Sur NeXT, des feuilles de style simples sont également utilisées, ce qui ne sera plus le cas jusqu’à l’apparition des Cascading Style Sheets.

1991

Le 6 août, Tim Berners-Lee rend le projet WorldWideWeb public dans un message sur Usenet.

Étendue : premier serveur web hors d’Europe au SLAC ; passerelle avec WAIS.

Logiciels : fichiers développés au CERN disponibles par FTP.

1992

Le World Wide Web fait l’objet d’une présentation d’ensemble datée du 3 novembre 1992.

Étendue : 26 sites web « raisonnablement fiables », dont le premier site français.

Logiciels : navigateurs Erwise, ViolaWWW ; serveur NCSA HTTPd.

1993

Le 30 avril, le CERN renonce aux droits d’auteur sur les logiciels du World Wide Web et permet leur mise dans le domaine public. À la fin de l’année, les médias grand public remarquent Internet et le WWW.

Étendue : 130 sites web en juin, 623 en décembre ; l’usage croît d’un rythme annuel de 341 634 %.

Logiciels : Apparitions des navigateurs NCSA Mosaic et Lynx. Disponible d’abord sur X Window, puis sur Windows et MacOS, Mosaic cause un phénoménal accroissement de la popularité du web.

Technologies : images dans les pages web (Mosaic 0.10) ; formulaires interactifs (Mosaic 2.0pre5).

1994

Étendue : 2 738 sites en juin, 10 022 en décembre.

Sites : Yahoo! créé par deux étudiants ; apparition de la publicité sur HotWired.

Logiciels : Netscape Navigator 1.0.

Standards : fondation du World Wide Web Consortium ; RFC 1738 (Uniform Resource Locators).

1995

Microsoft crée MSN pour concurrencer Internet et le web, puis change d’avis et lance la guerre des navigateurs.

Étendue : 23 500 sites en juin (18 957 en août selon la première mesure de Netcraft ).

Logiciels : serveur HTTP Apache ; Microsoft Internet Explorer 1.0 et 2.0.

Sites : moteur de recherche AltaVista.

Technologies : formatage tabulaire (Netscape Navigator 1.1b1), documents multi-cadres (Netscape Navigator 2.0b1), Java, JavaScript (Netscape Navigator 2.0b3), PHP.

Standards : RFC 1866 (HTML 2.0).

1996

Étendue : 100 000 sites en janvier, environ 230 000 en juin.

Logiciels : Netscape Navigator 2.0 et 3.0 ; Internet Explorer 3.0 ; Opera 2.1.

Standards : RFC 1945 (HTTP/1.0) ; CSS level 1.

Sites : Internet Archive commence à archiver le web.

1997

Étendue : plus de 1 000 000 sites en avril selon Netcraft.

Logiciels : Netscape Navigator 4.0 ; Internet Explorer 4.0.

Standards : HTML 3.2 ; HTML 4.0.

1998

America Online rachète Netscape qui a perdu la guerre des navigateurs pour 4 milliards US$.

Étendue : plus de 2 000 000 sites en mars.

Logiciels : Netscape Navigator 4.5 ; projet Mozilla.

Sites : Google.

Standards : XML 1.0 ; CSS level 2 ; DOM level 1, WAP level 1.

1999

Étendue : plus de 4 000 000 de sites en janvier, plus de 7 400 000 en août.

Logiciels : Internet Explorer 5.0.

Standards : HTML 4.01 ; RFC 2616 (HTTP/1.1).

2000

Étendue : 11 161 854 sites en février, 19 823 296 en août selon Netcraft37.

Standards : XHTML 1.0.

2001

Étendue : 27 585 719 sites en janvier, 30 775 624 en août.

Logiciels : Internet Explorer 6.

Sites : Wikipédia.

2002

Étendue : 36 689 008 sites en janvier, 35 991 815 en août.

Logiciels : Mozilla 1.0.

2003

Étendue : 35 863 952 sites en février, 42 807 275 en août.

Logiciels : Safari.

2004

Le concept de Web 2.0 (désignant un phénomène pré-existant) apparaît.

Étendue : 46 067 743 sites en janvier, 53 341 867 en août.

Standards : création du Web Hypertext Application Technology Working Group (WHATWG).

Sites : Facebook

Logiciels : Mozilla Firefox 1.0.

2005

Étendue : 59 100 880 sites en février, 70 392 567 en août

Logiciels : Mozilla Firefox 1.5.

2006

Étendue : 85 507 314 sites en juin38, 76 184 000 sites en février, 92 615 362 en août[réf. nécessaire].

Logiciels : Internet Explorer 7, Mozilla Firefox 2.0.

2007

Étendue : 108 810 358 sites en février39, 127 961 479 en août40.

Logiciels : Safari sur Windows.

Standards : Le W3C décide de poursuivre le travail sur HTML5 commencé au WHATWG.

2008

Étendue : 158 209 426 sites en février41, 176 748 506 en août42.

Logiciels : Mozilla Firefox 3.0 ; Google Chrome 0.2.

2009

Étendue : 216 000 000 sites en février43

Logiciels : Internet Explorer 8 ; Mozilla Firefox 3.5, qui inclut TraceMonkey, premier moteur d’exécution JavaScript avec compilation à la volée ; Safari 4 ; Opera 10

2010

Logiciels : Mozilla Firefox 3.6 ; Google Chrome 4 ; Safari 5

2011

Étendue : 284 842 077 sites en février44 312 693 296 sites en avril37

Logiciels : Google Chrome 9 (février), 10 (mars), 11 (avril), 12 (juin), 13 (août), 14 (septembre), 15 (octobre), 16 (décembre) ; Mozilla Firefox 4 (mars), 5 (fin juin), 6 (fin août) et 7 (fin septembre) ; Internet Explorer 9 ; Opera 11

2012

Logiciels : Mozilla Firefox 16 (octobre) ; Google Chrome 19 (mai) ; Safari 6.0 (juillet)

2013

Dans un projet de restauration historique45, le CERN remet en ligne la page présentant le projet du web : info.cern.ch/hypertext/WWW/The....

Logiciels : Internet Explorer 11

2014

Étendue : 1 000 000 000 sites en septembre46

Logiciels : Mozilla Firefox 29

2015

Logiciels : Microsoft Edge

Évolution de l’usage

En créant le logiciel WorldWideWeb, Tim Berners-Lee a créé à la fois le premier navigateur web et le premier éditeur web, car il voulait faire du web un média collaboratif, dans lequel tous les acteurs consultent et créent l’information. Cependant, le web s’est immédiatement orienté en un média de diffusion d’information global plutôt que de collaboration.

Dans la première moitié des années 1990, le concept de site web à la racine d’un nom de domaine stable n’était pas établi, à commencer par la première page web dont l’adresse était nxoc01.cern.ch/hypertext/WWW/T.... Les sites étaient souvent mis en place dans des départements techniques par des employés et des étudiants, et les URL changeaient au gré des changements de personnes et d’infrastructure. En outre, il n’existait pas de moteur de recherche efficace. Aussi de nombreuses pages étaient des listes de liens sur les pages préférées de l’auteur de la page. Cette propriété du web sera d’ailleurs exploitée plus tard par les créateurs de Google pour calculer la pertinence des pages, puis détournée par les fermes de liens. Mais bien avant cela, en janvier 1994, Yahoo! est créé et devient rapidement le plus grand annuaire web. Comme les créateurs de Yahoo! étaient des étudiants de l’université Stanford, L’URL originale était akebono.stanford.edu/yahoo, et ce n’est qu’en janvier 1995 que le domaine yahoo.com est créé.

Dans la seconde moitié des années 1990, le web devient populaire, et toutes les grandes entreprises, organisations, écoles, administrations, ouvrent un site web. Les moteurs de recherche deviennent efficaces, notamment avec l’apparition d’Altavistac en décembre 1995, et pour finir Google en 1998. Dans cette phase de développement du média, un flot d’information top-down prédomine : un site web est fait pour diffuser les informations de son propriétaire. Les interactions s’arrêtent souvent à la recherche et au commerce en ligne. Bien sûr, le courrier électronique, la messagerie instantanée, et les forums de discussion existaient depuis plus longtemps que le web, mais ils fonctionnaient principalement avec des protocoles et logiciels spécifiques (voir Catégorie:Logiciel de messagerie instantanée, Catégorie:Logiciel de courrier électronique, Catégorie:Client Usenet).

Web 2.0

Articles détaillés : Web 2.0 et Web 3.0.

Avec les années 2000 les notions de blog, de wiki (en 2001, lancement de la Wikipédia en anglais) et de réseautage social (Myspace en 2003, Facebook en 2004) deviennent populaires. Le contenu généré par les utilisateurs se répand (Wikipédia, YouTube en 2005, Twitter en 2006). La technologie Ajax (1998, théorisée en 2005) commence à être largement utilisée pour créer des applications complètes qui tiennent dans une seule page web (Google Maps en 2004). L’expression Web 2.0, largement popularisée au milieu des années 2000, désigne cette transition dans le flux de l’information et la manière d’utiliser le web. Le succès de l’expression « Web 2.0 » a conduit de nombreuses personnes à appeler « Web 2.5 », 3.0, 4.0, etc. leur vision du Web de l’avenir.

Répartition du trafic web

Selon une étude de la société Incapsula réalisée en mars 2013, 50 % du trafic web était généré par des bots, c’est-à-dire des machines automatisées. Une mise à jour récente de cette étude (décembre 2013) révèle que ces mêmes machines représentent aujourd’hui près de 61 % du trafic avec notamment une hausse du trafic des moteurs de recherche en hausse de 55 %. Les opérations d'hacking représentent environ 4,5 % du trafic alors que les humains prennent environ 38,5 %. Autrement dit à peine plus du tiers du trafic est généré par les activités humaines. La cause réside probablement dans l’explosion du marketing qui représente à lui seul la moitié du trafic (bots et humains confondus).

Architecture

Modèle mathématique

Le World Wide Web, en tant qu’ensemble de ressources hypertextes, est modélisable en graphe orienté possédant des cycles avec les ressources pour sommets et les hyperliens pour arcs. Comme le graphe est orienté, certaines ressources peuvent constituer des puits, ou moins formellement des culs-de-sac: il n’existe aucun chemin vers le reste du web. À l’inverse, certaines ressources peuvent constituer des sources : il n’existe aucun chemin depuis le reste du web.

Les analyses ont montré que la structure du web répondait au modèle des réseaux invariants d’échelle présent dans la plupart des réseaux sociaux. Cela se traduit par la présence de moyeux, les hubs, vers lesquels convergent les liens hypertextes : ce sont les sites les plus importants qui constituent le squelette du web.

Techniquement, rien ne distingue le World Wide Web d’un quelconque autre web utilisant les mêmes technologies. Ainsi, d’innombrables webs privés existent. Dans la pratique, on considère qu’une page d’un site web populaire, comme un annuaire web, fait partie du web. Le web peut alors être défini comme étant l’ensemble des ressources et des hyperliens que l’on peut récursivement découvrir à partir de cette page, ce qui exclut les sources et les webs privés.

Exploration du web et web profond

L’exploration récursive du web à partir de ressources bien choisies est la méthode de base programmée dans les robots d’indexation des moteurs de recherche. En 2004, les moteurs de recherche indexent environ quatre milliards de ressources.

Le web profond, ou web invisible, est la partie du web qui n’est pas indexée et donc introuvable avec les moteurs de recherche généralistes. Une étude publiée en 2001 indiquait que la partie invisible du web représente plus de 99 % du web. Le web profond comprend notamment les ressources suivantes :

les ressources inaccessibles au public, donc aux robots, notamment les pages administratives ou payantes, protégées par un mot de passe ;

les ressources qui ne sont pas communiquées par des protocoles de communication pris en charge par les robots (souvent ils ne prennent en charge que HTTP et HTTPS) ;

les ressources dont le format de données n’est pas pris en charge par le robot ;

les ressources listées dans un fichier d’exclusion des robots ;

les ressources exclues par le robot car elles sont conçues pour abuser du référencement (spamdexing) ;

les ressources exclues par le robot car elles sont considérées comme trop peu pertinentes (par exemple si un site contient des millions de ressources qui ne sont liées par aucun autre site) ;

les ressources vers lesquelles les hyperliens sont créés dynamiquement en réponse aux interrogations des visiteurs.

Ces dernières ressources proviennent généralement de bases de données et constituent la partie la plus importante du web profond.

Serveurs publics

L’exploration récursive n’est pas le seul moyen utilisé pour indexer le web et mesurer sa taille. L’autre solution consiste à mesurer l’infrastructure informatique connectée à Internet pour héberger des sites web. Au lieu de suivre des hyperliens, cette méthode consiste à utiliser les noms de domaine enregistrés dans le Domain Name System et essayer de se connecter à tous les serveurs web potentiels. C’est notamment la méthode utilisée par la société Netcraft, qui publie régulièrement les résultats de ses explorations, dont les mesures de popularité des serveurs HTTP. Cette mesure porte plus sur l’utilisation des technologies du web que sur le web lui-même. Elle permet notamment de trouver des sites publics qui ne sont pas liés au World Wide Web.

Intranets et webs privés

Un site web mis en ligne sur un intranet est privé, car le public ne peut pas accéder à un intranet.

En outre, si l’on met en ligne un site web sur Internet en omettant de créer des liens depuis au moins une page existante du World Wide Web, alors ce site constitue un web isolé. Il est virtuellement privé, car le public ne peut pas le découvrir en suivant des hyperliens.

Archivage

Article détaillé : Archivage du web.

Le web change constamment : les ressources ne cessent d’être créées, modifiées et supprimées. Il existe quelques initiatives d’archives du web dont le but est de permettre de retrouver ce que contenait un site à une date donnée. Le projet Internet Archive est l’un d’eux.

Types de ressource

Les divers types de ressource du web ont des usages assez distincts :

les ressources constituant les pages web : documents HTML, images JPEG ou PNG ou GIF, scripts JavaScript, feuilles de style CSS, sons, animations, vidéo ;

les ressources accessibles depuis une page web mais consultables avec une interface particulière : applet ;

les ressources conçues pour être consultées séparément : documents (PDF, PostScript, Word, etc.), fichier texte, images de tout type, morceaux de musique, vidéo, fichiers à sauvegarder ;

les ressources appartenant à des systèmes qui ont une existence indépendante du web, mais vers lesquelles il est possible de créer un hyperlien : forums Usenet, boîtes aux lettres électroniques, fichiers locaux.

Documents HTML

Une page web.

Le document HTML est la principale ressource d’une page web, celle qui contient les hyperliens, qui contient et structure le texte, qui lie et dispose les ressources multimédias. Un document HTML contient uniquement du texte : le texte consulté, le texte en langage HTML plus d’éventuels autres langages de script ou de style.

La présentation de documents HTML est la principale fonctionnalité d’un navigateur web. HTML laisse au navigateur le soin d’exploiter au mieux les capacités de l’ordinateur pour présenter les ressources. Typiquement, la police de caractère, la longueur des lignes de texte, les couleurs, etc, doivent être adaptées au périphérique de sortie (écran, imprimante, etc).

Multimédia

Les éléments multimédias proviennent généralement de ressources indépendantes du document HTML. Les documents HTML contiennent des hyperliens pointant sur les ressources multimédias, qui peuvent donc être éparpillées sur Internet. Les éléments multimédias liés sont automatiquement transférés pour présenter une page web.

Seul l’usage des images et des petites animations est standardisé. Le support du son, de la vidéo, d’espaces tridimensionnels ou d’autres éléments multimédias repose encore sur des technologies non standardisées. De nombreux navigateurs web proposent la possibilité de greffer des logiciels (plugin) pour étendre leurs fonctionnalités, notamment le support de types de média non standard.

Les flux (audio, vidéo) nécessitent un protocole de communication au fonctionnement différent de HTTP. C’est une des raisons pour lesquelles ce type de ressource nécessite souvent un plugin et est mal intégré aux pages web.

Images

Ce chapitre concerne les images intégrées aux pages web. L’usage du format de données JPEG est indiqué pour les images naturelles, principalement les photographies.

L’usage du format de données PNG est indiqué pour les images synthétiques (logos, éléments graphiques). Il est aussi indiqué pour les images naturelles, mais uniquement lorsque la qualité prime totalement sur la durée du transfert. L’usage du format de données GIF est indiqué pour les petites animations. Pour les images synthétiques, la popularité ancienne de GIF le fait souvent préférer à PNG. Cependant, GIF souffre de quelques désavantages, notamment la limitation du nombre de couleurs et un degré de compression généralement moindre. En outre une controverse a entouré l’usage de GIF de 1994 à 2004 car Unisys a fait valoir un brevet couvrant la méthode de compression. L’usage d’images de format de données XBM est obsolète.

Vidéo

Jusque dans les années 2000, la consultation de musique et vidéo demandait l’installation d’un programme ad hoc (un plugin) pour étendre les fonctionnalités du navigateur web. La très grande diffusion du plugin Flash Player a finalement rendu la consultation vidéo aussi simple que celle des images. Finalement, la cinquième version langage HTML (HTML 5) a intégré la vidéo.

Scripts et animations

Un langage de script permet d’écrire le texte d’un programme directement exécuté par un logiciel. Dans le cadre du web, un script est exécuté par un navigateur web et programme des actions répondant à l’usage que le visiteur fait de la page web consultée. Un script peut être intégré au document HTML ou provenir d’une ressource liée. Le premier langage de script du web fut JavaScript, développé par Netscape. Ensuite Microsoft a développé une variante concurrente sous le nom de JScript. Finalement, la norme ECMAScript a été proposée pour la syntaxe du langage, et les normes DOM pour l’interface avec les documents.

De technologie aux capacités d’actions très limitées à ses débuts, le langage JavaScript est devenu capable d’exécuter toutes les applications imaginables : traitement de texte, jeu vidéo, émulateur, etc.

Encore plus que pour la vidéo, le plugin Adobe Flash Player est devenu très largement utilisé pour la diffusion d’animations. Parfois, des sites entiers sont réalisés en Flash. Il est cependant en voie de disparition car les navigateurs souhaitent en bannir l’usage.

Styles

Le langage CSS a été développé pour gérer en détail la présentation des documents HTML. Le texte en langage CSS peut être intégré au document HTML ou provenir de ressources liées, les feuilles de style. Cette séparation permet une gestion séparée de l’information (contenue dans des documents HTML) et de sa présentation (contenue dans des feuilles de style). On parle aussi de « séparation du fond et de la forme ».

Autres

La gestion des autres types de ressource dépend des logiciels installés sur l’hôte client et de leurs réglages.

Lorsque le logiciel correspondant est disponible, les documents et images de tout type sont généralement automatiquement présentés, selon des modalités (fenêtrage, dialogues) dépendant du navigateur web et du logiciel gérant le type. Lorsque le type de la ressource n’est pas géré, il est généralement possible de la sauver dans un fichier local.

Pour gérer les ressources de systèmes différents du web comme le courrier électronique, les navigateurs font habituellement appel à des logiciels séparés. Si aucun logiciel ne gère un type de ressource, un simple message d’erreur l’indique.

Conception

Universalité

Le web a été conçu pour être accessible avec les équipements informatiques les plus divers : station de travail, terminal informatique en mode texte, ordinateur personnel, téléphone portable, etc. Cette universalité d’accès dépend en premier lieu de l’universalité des protocoles Internet. En second lieu, elle dépend de la flexibilité de présentation des pages web, offerte par HTML. En outre, HTTP offre aux navigateurs la possibilité de négocier le type de chaque ressource. Enfin, CSS permet de proposer différentes présentations, sélectionnées pour leur adéquation avec l’équipement utilisé.

Le W3C a pour cela créé des normes dans le but de permettre l’indépendance des outils qui servent à créer du contenu avec ceux qui servent à le lire. On appelle cela l’interopérabilité.

L’accessibilité du web pour les individus handicapés est aussi l’objet d’attentions particulières comme la Web Accessibility Initiative.

Décentralisation

Les technologies du web n’imposent pas d’organisation entre les pages web, ni à fortiori entre les sites web. Toute page du web peut contenir des hyperliens vers toute autre ressource accessible d’Internet. L’établissement d’un hyperlien ne requiert absolument aucune action du côté de la ressource pointée. Il n’y a pas de registre centralisé d’hyperliens, de pages ou de sites. Le seul registre utilisé est celui du DNS ; c’est une base de données distribuée qui répertorie les hôtes, permet de traduire en adresse IP le nom de domaine contenu dans certains hyperliens et qui est utilisée par tous les systèmes accédant à Internet.

Cette conception décentralisée devait favoriser, et a favorisé, une augmentation rapide de la taille du web. Elle a aussi favorisé l’essor de sites spécialisés dans les informations sur les autres sites : les annuaires et les moteurs de recherche. Sans ces sites, la recherche d’information dans le web serait extrêmement laborieuse. La démarche inverse, le portail web, tente de concentrer un maximum d’informations et de services dans un seul site.

Une faiblesse de la décentralisation est le manque de suivi lorsqu’une ressource est déplacée ou supprimée : les hyperliens qui la pointaient se retrouvent cassés. Et cela n’est visible qu’en suivant l’hyperlien, le résultat le plus courant étant le message d’erreur 404.

Technologies

Article détaillé : technologies Web.

Préexistantes

Le web repose sur les technologies d’Internet, notamment TCP/IP pour assurer le transfert des données, DNS pour convertir les noms d’hôte en adresses IP et MIME pour indiquer le type des données. Les standards de codage des caractères et les formats d’image numérique GIF et JPEG ont été développés indépendamment.

Spécifiques

Trois technologies ont dû être développées pour le World Wide Web :

les URL pour pouvoir identifier toute ressource dans un hyperlien ;

le langage HTML pour écrire des pages web contenant des hyperliens ;

le protocole de communication HTTP utilisé entre les navigateurs et les serveurs web, qui permet d’indiquer le type MIME des ressources transférées.

Ces premières technologies ont été normalisées comme les autres technologies d’Internet : en utilisant le processus des Request for Comments. Cela a donné le RFC 1738 pour les URL, le RFC 1866 pour HTML 2.0 et le RFC 1945 pour HTTP/1.0.

Le World Wide Web Consortium (W3C) a été fondé en 1994 pour développer et promouvoir les nouveaux standards du web. Son rôle est notamment de veiller à l’universalité des nouvelles technologies. Des technologies ont également été développées par des entreprises privées.

Actuelles

Les principaux standards actuels sont :

ASCII et UTF-8 pour le codage des caractères ;

HTML 4 fondé sur SGML ;

XHTML fondé sur XML ;

XML a été développé pour donner aux langages de balises, dont HTML, une syntaxe plus simple que SGML ;

HTML5 fondé sur la pratique courante des années 2000 ;

le RFC 3986 (Uniform Resource Identifier (URI): Generic Syntax), qui recouvre les URL ;

les RFC 7230 (HTTP/1.1 Message Syntax and Routing), RFC 7231 (Hypertext Transfer Protocol (HTTP/1.1): Semantics and Content), RFC 7232 (Hypertext Transfer Protocol (HTTP/1.1): Conditional Requests), RFC 7233 (Hypertext Transfer Protocol (HTTP/1.1): Range Requests), RFC 7234 (Hypertext Transfer Protocol (HTTP/1.1): Caching), RFC 7235 (Hypertext Transfer Protocol (HTTP/1.1): Authentication), anciennement RFC 2616 (HTTP/1.1) ;

les feuilles de styles en cascade CSS level 1, level 2.1, level 3 ;

les modèles de document DOM level 1 et level 2 ;

le langage de script JavaScript pour manipuler les documents ;

le format de donnée JSON, dérivé de JavaScript

les formats d’image numérique PNG, JPEG et GIF ;

Scalable Vector Graphics (SVG) pour les images vectorielles ;

WebGL pour la synthèse d'image 3D.

Technologies serveur

Outre les protocoles de communication et formats de données utilisés dans le Web, plusieurs techniques propres au Web sont mises en œuvre pour faire fonctionner les serveurs HTTP (ou serveurs web). Comme ces techniques ne concernent pas les logiciels client du Web, elles ne sont pas standardisées par le World Wide Web Consortium.

Serveur HTTP

Article détaillé : Serveur HTTP.

Le serveur HTTP est chargé d’assurer la communication entre le poste client et les ressources des sites. Il doit être capable d’aiguiller, sur le serveur, en fonction de la requête HTTP, reçue de la part du client, vers les bonnes ressources. Il peut s’agir de ressources statiques, situées dans le système de fichier du serveur, ou des contenus dynamiques par différents biais. La fourniture des pages dynamiques est déléguée à des applications autonomes sur le serveur. Il doit également être capable de gérer les erreurs, si les ressources ne sont pas trouvées ou s’il y a une erreur dans la production de la ressource, en retournant le message adéquat au client. Le premier serveur HTTP fut CERN httpd et est rapidement tombé en désuétude. En 2014, les principaux serveurs Web utilisés sont Apache HTTP Server, serveur dominant du marché depuis des années, Nginx utilisé sur les sites à plus forte audience, mais aussi Microsoft IIS, Google Web Server ou encore Lighttpd.

Le standard Common Gateway Interface (CGI) est un protocole de communication inter-processus entre le serveur HTTP et des applications externes situées également du côté serveur. Ce standard est géré par l’IETF.

Le standard FastCGI remplace aujourd’hui[Quand ?] majoritairement le CGI. Il permet de séparer plus efficacement le serveur HTTP des applications et de mieux contrôler le nombre d’instances des applications dynamiques du côté serveur.

Certains langages couramment utilisés avec les services HTTP, comme PHP, Java et Ruby, utilisent également des technologies particulières pour la communication avec le serveur.

Pour PHP, mod php pour Apache a souvent été utilisé à la place de CGI ; il tend aujourd’hui[Quand ?] à être remplacé par le protocole fastCGI, il y a quelques années[Quand ?], via mod fastcgi et aujourd’hui[Quand ?] davantage via mod fcgid, soit via PHP-FPM.

En Java, le projet Apache Jakarta a permis de réunir plusieurs outils. Dans cette architecture, le module Apache mod jk permet de faire la liaison avec le serveur d’application Tomcat qui exécute les Java Servlet et JavaServer Pages. En Ruby, Phusion Passenger, fonctionnant avec Apache et Nginx est un des principaux outils de communication entre le service HTTP et les applications.

Langages d’application dynamiques côté serveurs

En pratique, CGI et fastCGI permettent d’utiliser n’importe quel langage, cependant, on peut citer certains langages de script qui sont devenus les plus populaires, utilisant du CGI ou une autre technique pour communiquer avec le serveur.

Le langage de programmation PHP (PHP: Hypertext Preprocessor) a été développé pour générer les pages web. Il jouit d’une forte intégration avec le serveur HTTP et les langages HTML. C’est aujourd’hui le langage le plus utilisé côté serveur avec presque 70 % des sites en 201053. Le moteur ASP (Active Server Pages) a été développé par Microsoft pour interpréter du langage de script dans le serveur IIS (Internet Information Services), il est le second langage le plus utilisé avec un peu moins de 30 % des sites en 2010.

Le langage Java, dont les pages sont servies par Apache Tomcat est ensuite très utilisé, particulièrement dans le domaine bancaire, la tendance est à y inclure du langage Ruby via le module jRuby. Java était utilisé sur un peu moins de 1 % des serveurs en 201053. Le langage Ruby, avec principalement le serveur d’application Ruby on Rails avec 0,5 % en 201053. Devant la popularité grandissante de JavaScript côté client, liée à Ajax puis HTML5, le côté serveur a suivi avec la plateforme logicielle Node.js, dédiée aux applications serveur.

Au début des CGI, Perl était très utilisé côté serveur, en raison de ses affinités avec les administrateurs système et réseau, et de sa dominance dans ce domaine.

Bases de données

Les bases de données sont également une partie importante de la génération des sites à contenu dynamique.

Les principaux types de base de données sont :

de type SQL ; MySQL est la plus populaire, suivie de Microsoft SQL Server, PostgreSQL, SQLite, Berkeley DB et Oracle ;

de type NoSQL ; MongoDB est la plus utilisée, mais on peut également citer CouchDB, Amazon SimpleDB ou BigTable utilisé par Google.

Notes et références

Notes

Prononciation en anglais américain retranscrite selon la norme API.

L’image de l’araignée est parfois utilisée par les anglophones, on la retrouve ainsi dans l’expression web spider pour le robot d’indexation.

Le moteur Altavista est apparu sous le domaine altavista.digital.com, et de nombreux visiteurs allaient par erreur sur altavista.com qui n'avait rien à voir. Le domaine altavista.com a finalement été racheté par le propriétaire du moteur de recherche pour des millions de dollars, démontrant l'importance d'un nom de domaine bien choisi dès l'apparition d'un site.

Références

Vocabulaire de l'informatique et de l'internet (liste de termes, expressions et définitions adoptés) [archive], legifrance.gouv.fr, JORF no 0285 du 9 décembre 2018, consulté le 28 septembre 2020

Quelle différence entre web et internet ? [archive], sur le site service-public.fr du 3 décembre 2014

Le web libre et ouvert fête ses 20 ans [archive] Numerama 30 avril 2013

(en) WorldWideWeb: Proposal for a HyperText Project [archive], T. Berners-Lee/CN, R. Cailliau/ECP, 12 novembre 1990

(en) Frequently asked questions by the Press - Tim BL - Spelling of WWW [archive]

Google Books "Le bon usage de la répétition dans l'expression écrite et orale" page 46 [archive]

« Web » [archive], Le Grand Dictionnaire terminologique, Office québécois de la langue française (consulté le 20 novembre 2020)]

Journal officiel du 16 mars 1999 - Vocabulaire de l’informatique et de l’internet [archive]

RFC3983 [archive] sur ietf.org

« C'est quoi un serveur HTTP ou serveur Web ? » [archive], sur culture-informatique.net (consulté le 9 juillet 2021)

« Client HTTP » [archive], sur standard-du-web.com (consulté le 9 juillet 2021)

Site challenges.fr, article "Tim Berners-Lee: "Oui, le Web est né en France...." [archive], consulté le 28 novembre 2021.

(en) Tim Berners-Lee's account of the exact locations at CERN where the Web was invented [archive], sur le site davidgalbraith.org.

Site saint-genis-pouilly.fr, page "Histoire du CERN" [archive].

(en)Tim Berners-Lee, Information Management: A Proposal [archive], CERN, mars 1989.

James Gillies, Robert Cailliau, How the Web was born: the story of the World Wide Web, Oxford, Oxford University Press, 2000, (ISBN 0-19-286207-3), p. 87.

(en) Tim Berners-Lee, Mark Fischetti, Weaving the Web: the past, present and future of the World Wide Web by its inventor, Londres, Texere, 2000, 272 p. [détail de l’édition] (ISBN 1-58799-018-0) p. 27.

(en)Interview de Robert Cailliau par Andrew Talons en 2010 [archive].

(en)Frequently Asked Questions - Robert Cailliau's role [archive].

« The document that officially put the World Wide Web into the public domain on 30 April 1993. » [archive], sur cds.cern.ch.

A Little History of the World Wide Web [archive] sur le site du W3C.

(en) Tim Berners-Lee, Mark Fischetti, Weaving the Web : the past, present and future of the World Wide Web by its inventor, Londres, Texere, 2000, 272 p. [détail de l’édition] (ISBN 1-58799-018-0) p. 15.

« The World Wide Web project » [archive], sur info.cern.ch (consulté le 13 août 2020)

Selon w3.org/History.html [archive], la page archivée à w3.org/History/19921103-hypert... [archive] a été modifiée la dernière fois le 13 novembre 1990 à 15:17:00 GMT.

Présentation du navigateur sur le site du W3C [archive].

« Re: Qualifiers on Hypertext links... » [archive], copie du message news:6484@cernvax.cern.ch [archive] originellement posté dans news:alt.hypertext [archive], sur w3.org (consulté le 21 février 2021).

Tim Berners-Lee et Mark Fischetti, Weaving the Web, 1999 (ISBN 1-58799-018-0), p. 51.

« archives sur ksi.cpsc.ucalgary.ca »(Archive.org • Wikiwix • Archive.is • Google • Que faire ?).

(en) A Little History of the World Wide Web [archive], sur le site W3C.

Page de présentation du projet [archive].

« World-Wide Web Servers » [archive], sur w3.org (consulté le 9 mars 2019).

« Comment le premier site web français a vu le jour au CNRS » [archive], sur CNRS Le journal (consulté le 9 mars 2019).

Présentation sur le site du W3C [archive].

Annonce sur le site du CERN [archive].

« Internet Statistics: Web Growth, Internet Growth » [archive], sur mit.edu (consulté le 9 mars 2019).

« Web Server Survey | Netcraft » [archive], sur news.netcraft.com (consulté le 9 mars 2019).

(en) « Total number of Websites - Internet Live Stats » [archive], sur internetlivestats.com (consulté le 9 mars 2019).

« February 2007 Web Server Survey | Netcraft » [archive], sur news.netcraft.com (consulté le 9 mars 2019).

« August 2007 Web Server Survey | Netcraft » [archive], sur news.netcraft.com (consulté le 9 mars 2019).

« February 2008 Web Server Survey | Netcraft » [archive], sur news.netcraft.com (consulté le 9 mars 2019).

« August 2008 Web Server Survey | Netcraft » [archive], sur news.netcraft.com (consulté le 9 mars 2019).

février 2009 [archive], sur le site netcraft.com.

février 2011 [archive], sur le site netcraft.com.

« About this project | Restoring the first website » [archive], sur first-website.web.cern.ch (consulté le 9 mars 2019).

(en) « Total number of Websites » [archive], sur internetlivestats.com (consulté le 20 septembre 2014).

61% du trafic web est généré par des robots [archive], silicon.fr, 13 décembre 2013.

comme perdu.com [archive]

(en) The Deep Web: Surfacing Hidden Value [archive], Michael K. Bergman, The Journal of Electronic Publishing, August, 2001, Volume 7, Issue 1.

(en-US) Benjamin Smedberg, « Reducing Adobe Flash Usage in Firefox » [archive], sur Future Releases (consulté le 22 août 2019)

« Serveurs web : les géants aiment de plus en plus NGINX » [archive], sur ZDNet France (consulté le 28 juin 2020).

(en)acunetix.com/blog/web-security... [archive] Statistics from the top 1,000,000 websites]

Voir aussi

Articles connexes

Concepts généraux

Internet, hypertexte, hyperlien, multimédia, réseau informatique

Concepts du web

Accessibilité du web, Adresse web, agence web, agrégation web, annuaire web, hébergeur web, page web, portail web, serveur web, site web, Web 2.0, Web profond, Web sémantique, Neutralité du réseau

Technologies

ActionScript, DOM, dynamic HTML, CSS, HTML, HTTP, JavaScript, SGML, standards du web, URI, URL, XHTML, XML

Logiciels serveurs

Apache HTTP Server, moteur de recherche, NCSA HTTPd, serveur HTTP, serveur proxy

Logiciels clients

Éditeur HTML, guerre des navigateurs, liste de navigateurs web, navigateur web, robot d’indexation

Acteurs

America Online, IETF, Marc Andreessen, Microsoft, Netscape Communications Corporation, Robert Cailliau, Tim Berners-Lee, WHATWG, World Wide Web Consortium, World Wide Web Conference

Applications

Blog, gestion des connaissances, système de gestion de contenu, Webmail, wiki

Sources: Wikipédia

Vous devez être connecté/-e pour ajouter un commentaire

Pas de commentaire pour l'instant!

Roger Monnard

412 contributions

27 février 2022

187 vues

3 likes

1 favori

0 commentaire

1 galerie

#technologie-et-inventions #internet #cern

Déjà 6,138 documents associés à 1980 - 1989

"Pour une Suisse sans armée" : après la votation, le débat

Galeries:

Communication

Images modifiées ou générées par l'IA

Depuis peu, l’intelligence artificielle arrive dans nos vies, pour le meilleur comme pour le pire. Elle permet de déflouter, coloriser et optimiser les témoignages historiques parfois de manière bluffante. Dans ce contexte, notreHistoire.ch et sa webédition a pris position pour défendre l'authenticité et la sincérité des documents publiés sur la plateforme.

Découvrez le blog...

Nos vies : un siècle d’histoire des Suisses par leurs images

Aspects légaux

Informations

Focus

Partenariats éditoriaux :

Partenaires de soutien :

113,141

7,168