Web Analytics: 2. les indicateurs de base

 2006-08-19
Commençons par évoquer les quatre notions de bases que l'on retrouve dans tous les outils de Web Analytics: les hits, les pages vues, les visites et les visiteurs. Il est important de bien maîtriser ces termes car tous les indicateurs ultérieurs sont construits à partir d'eux.

1) Les hits: il convient de rappeler en premier lieu qu'une page web est en fait un ensemble de fichiers, dont le fichier HTML proprement dit ainsi que des références à d'autres fichiers qui composent la page: des images, des scripts, des feuilles de style, ou encore des animations flash et autres applets java. Au moment de la consultation de la page, le navigateur crée autant de requêtes que de fichiers, les envoie toutes au serveur, puis combine les réponses reçues pour restituer la page demandée.

Un hit correspond à une requéte que le serveur reçoit du navigateur. Il ne faut donc pas confondre l'URL qui apparait dans le navigateur avec la notion de hit: dans la majorité des cas, plusieurs hits sont associés à une URL. Ce nombre dépend de la conception de la page, selon qu'on y a inclus plus ou moins de fichiers externes, ce qui rend les comparaisons difficiles: en effet, si un site génére dix fois plus de hits qu'un autre cela peut tout aussi bien signifier que son activité est dix fois supérieure à celle de son concurrent ou que chacune de ses pages comporte dix fois plus de fichiers externes. Pour les mêmes raisons, une affirmation selon laquelle "les hits ont progressé de 15% depuis la refonte du site" doit être prise avec prudence.

Une solution à ce problème consiste à filtrer les fichiers logs pour y supprimer toutes référencres aux fichiers externes (images, scripts, ...) mais d'une part il n'existe pas de standards et d'autre part le filtrage ne couvre pas tous les cas de figure: supposons en effet une page qui affiche un groupe de l'annuaire d'entreprise. Si un utilisateur veut ajouter un membre, il clique sur un lien qui affiche une fenêtre de recherche. Après plusieurs tentative il trouve la personne à ajouter au groupe et clique sur un lien pour effectuer cette action. On a donc un hit pour l'affichage du groupe, un hit par recherche effectuée et encore un hit pour ajouter la personne au groupe. Est-ce que l'on veut vraiment garder en mémoire tous ces hits? Sans doute que non; la plupart des hits générés à l'occasion de cette interaction sont un peu artificiels. En dehors des applications, on pourrait également citer le cas des frames ou le cas de certaines pages Ajax qui effectuent d'incessantes requêtes vers le serveur.

On ne devrait donc plus utiliser ce terme car il donne une idée fausse de ce qui se passe sur un site web: il s'agit simplement d'un indicateur d'activité de ce qui se passe sur le serveur. Si la notion de hit est si populaire c'est en raison de sa facilité d'accès: le hit correspond en effet à une ligne du fichier log. Les premières applications de Web Analytics reposant sur l'analyse des fichiers log, il n'est pas étonnant que les hits aient connu le succès qu'on leur connait. Signalons enfin que certains éditeurs utilisent le terme hit pour désigner une page ce qui introduit davantage de confusion encore.


2) les pages: parfois appelées pages vues ou vues. Cette notion est plus proche de l'expérience utilisateur car elle correspond en gros à la page que l'on voit dans le navigateur. Si j'affiche par exemple la page d'accueil du site double-six.org, mon outil de Web Analytics comptera une seule page, quelle que soit la manière dont est composée la page. Les outils d'analyse de log autorisent une définition de la page par référence à son extension (.htm, .html, etc) alors que les outils à base de marqueurs définissent la page comme tout fichier de type mime "text/html" qui contient un marqueur. Il faut noter que les deux définitions ne se recouvrent pas. Quoi qu'il en soit, on préfére aujourd'hui cette mesure à celle des hits pour les raisons évoquées précédemment.

3) Les visiteurs: un visiteur est tout être humain accédant à un site web à l'aide d'un navigateur. Cette définition exclut tous les utilisateurs non-humains tels que les crawlers des moteurs de recherche ainsi que les utilisateurs humains qui n'utilisent pas un navigateur, mais par exemple un aspirateur de site.

4) Les visites: d'une compréhension intuitive, le terme de visite souffre d'une définition moins évidente: pour un site donné, une visite est un ensemble d'actions effectuées par un visiteur (c'est à dire un être humain qui utilise exclusivement un navigateur) pendant une période donnée, dont la fin est signalée par une inactivité de plus de 30 minutes. Disons le tout de suite, cette valeur est arbitraire et s'est simplement imposée comme un standard en raison de son usage fréquent.

Si on utilise l'analyse de fichiers log, la notion de visite est reconstruite à partir de l'information de base que sont les hits. Le logiciel d'analyse compte une visite en reprenant tous les hits générés par un utilisateur donné dans une période de temps continue et avec une interruption inférieure à 30 minutes entre chaque reqûete. Nous verrons par la suite que cette méthode pose de sérieux problémes en raison de la distinction entre les utilisateurs par le recours à leur adresse IP. Les solutions à base de tag procédent différemment en assignant un identifiant de session lors de l'initiation de la visite. A priori cette méthode semble plus robuste mais elle repose sur l'utilisation d'un cookie que de nombreux navigateurs rejettent par défaut, faussant par la même la mesure.