Histoire et origine de la rédaction web

La rédaction web est désormais une discipline à part entière. Pourtant, il n’en a pas toujours été ainsi. Bien des ajustements et tâtonnements furent nécessaires afin de faire émerger ce qui allait devenir, plus tard, une quasi-science, qui connait d’ailleurs des évolutions constantes. Et si on ouvrait le capot ?

Rédaction web et référencement naturel : une histoire des origines

Selon la formule consacrée, on ne trouve pas « tout » sur Internet, mais de tout. Si nous parvenons aujourd’hui à trouver des contenus de qualité, c’est sans conteste grâce aux moteurs de recherche, conçus progressivement pour dompter l’immensité du monde numérique.

Le web dans les années 1995-2000

Au milieu des années 1990, Internet s’apprête à transformer durablement nos modes de communication, mais aussi la manière dont nous accédons à l’information. Nous assistons alors à l’émergence d’une vision « commerciale » du réseau, caractérisée par les premières transactions en ligne, l’apparition des premiers moteurs de recherche grand public (comme les annuaires Yahoo! et Altavista) puis, la naissance d’une logique d’indexation des pages web.

En 1997, les bases du référencement naturel sont jetées. On parle de SEO (pour Search Engine Optimization). Les pionniers du webmastering commencent à réaliser le potentiel commercial d’un bon classement, qui garantit une bonne visibilité – et donc, un flux massif de visiteurs.

Cette année-là, les choses sérieuses commencent : le nombre de sites web dépasse le million. Les ordinateurs connectés à l’Internet sont, quant à eux, estimés aux alentours de 82 millions. Il faut agir !

Le keywords stuffing, une première approche excessive du référencement

Dans un premier temps, les professionnels tentent de « tricher » avec les algorithmes des premiers moteurs de recherche, dotés d’une logique très rudimentaire. Il était alors impossible de détecter les sites de qualité, de ceux cherchant uniquement à attirer du trafic.

De mauvaises pratiques font rapidement leur apparition, dont le keywords stuffing – littéralement « bourrage de mots-clés ». Cette méthode concurrentielle impitoyable consistait à obtenir une densité de mots-clés supérieure à la concurrence, dans l’espoir d’améliorer le positionnement d’une page web dans les moteurs de recherche.

Petite anecdote amusante à ce sujet : certains petits-malins n’hésitaient pas à dissimuler leurs mots-clés en utilisant des couleurs similaires pour le texte et l’arrière-plan. Il était également opportun de répéter les mêmes expressions selon plusieurs variantes (en minuscule, en majuscule, au singulier ou au pluriel) pour obtenir un bon positionnement sur certaines requêtes.

Aujourd’hui, cette pratique est associée à du spam, largement sanctionnée par Google et son armada d’algorithmes, dressés à reconnaître les mauvaises pratiques.

L’avènement de Google et vers un index qualitatif

La période 1997-1998 peut être considérée comme un authentique point de bascule pour l’univers du référencement naturel. C’est à partir de là qu’on commence à réfléchir à l’instauration d’un index plus qualitatif, au service des internautes et de leurs préoccupations. C’est aussi à ce moment qu’apparaît Google, et sa vision révolutionnaire. Point de hasard.

Originellement, Google n’est qu’un simple moteur de recherche, cherchant à acquérir un index le plus complet possible. Pour cela, Google fait preuve d’astuce : il recherche sur chaque page web les liens vers d’autres sites. Cette logique lui permet d’augmenter le nombre de sites référencés de manière exponentielle.

Le premier index de Google, en 1998, comptait approximativement 26 millions de pages. En 2000, le nombre de pages référencées atteignait déjà le demi-milliard.

L’algorithme PageRank, premier étage de la fusée Google

Le premier algorithme de Google, introduit en 1998, est le fameux PageRank. Conçu pour trier les pages web selon leur degré d’importance, ce système introduit pour la première fois l’idée d’un classement qualitatif. Les fondateurs de Google tentent alors d’inventer une solution technique permettant d’estimer l’autorité des pages web.

PageRank, développé sous la forme d’un algorithme breveté, décrète la chose suivante : plus une page web dispose de liens entrants, meilleure est l’évaluation donnée à la page par Google. A une certaine époque, ce système de notation de 0 à 10 était visible publiquement dans la barre d’outils Google. Ce n’est plus le cas aujourd’hui.

D’une certaine manière, Google venait de réinventer le principe des relations publiques. Toutefois, le fonctionnement de PageRank fut rapidement détourné, certains propriétaires de sites web n’hésitant pas à développer des fermes de liens, dans le but d’augmenter artificiellement le nombre de liens retour.

On l’aura compris : cette période marque le règne de la quantité sur la qualité. L’expérience utilisateur n’est pas encore une priorité dans les esprits. Progressivement, donc, Google va mettre en place un système de pénalités.

L’émergence des pénalités algorithmiques : quand Google se rebiffe

Les premières règles introduites par PageRank dès 1998 sont peu suivies. Il faut donc trouver un moyen de sévir. A partir de 2003, Google déploie ses premiers algorithmes spécialisés dans la guerre aux contenus dupliqués, ou de mauvaise qualité.

Introduit en 2003, l’algorithme Florida déprécie les liens en provenance de pages non pertinentes, basant son fonctionnement sur une analyse statistique. L’idée de départ est de déceler les sites frauduleux, en observant une analyse minutieuse des liens.

Toutefois, cette mise à jour est accueillie avec réticence. Un grand nombre d’activités numériques, au-delà de tout soupçon, sont balayées du classement et qualifiées de faux positifs. Lancé à l’approche des fêtes de fin d’année, l’algorithme porte préjudice à de nombreux sites de vente au détail et d’affiliation.

Pendant les années qui suivent, Google poursuit sa stratégie d’épuration et multiplie les mises à jour. En septembre 2005 par exemple, l’algorithme Jagger pénalise les sites dotés de liens retour douteux ou jugés non naturels.

En 2010, l’algorithme Caféine propose une refonte de l’architecture du moteur de recherche en profondeur, pour une meilleure indexation des contenus et des résultats de recherche plus pertinents. Auparavant, Google devait extraire, analyser et comprendre le contenu avant de pouvoir l’indexer. Désormais, les pages sont crawlées et indexées instantanément.

Les algorithmes Panda et Penguin

A partir de 2011, Google introduit une mise à jour majeure, par l’entremise de l’algorithme Panda. L’idée sous-jacente, consistant à lutter contre les sites web de faible qualité est poussée au maximum : Panda évalue ainsi la qualité des contenus, attribuant à chaque page web un score de qualité. Les fermes de contenu, de même que le bourrage de mots-clés, sont toujours dans le viseur.

L’année suivante, Penguin poursuit cette même logique de pénalisation des sites se livrant à des tactiques de référencement abusives. L’algorithme surveille notamment les activités de cloaking frauduleux – permettant de forcer le positionnement d’une page, tout en proposant des contenus différents selon l’utilisateur.

Les deux algorithmes agissent comme des traqueurs de sites et de pages web de mauvaise qualité. Toutefois, leur fonctionnement est sensiblement différent. Si Panda se focalise davantage sur la qualité éditoriale, Penguin concentre son action sur des critères techniques (types de liens, ancrage, rapidité d’acquisition des backlinks, etc.).

L’utilisateur au centre de l’expérience

A partir des années 2010, l’avènement des réseaux sociaux et des nouveaux usages contraint Google à considérer davantage l’intérêt des utilisateurs dans l’équation du référencement. Si les contenus de qualité sont toujours priorisés par le moteur de recherche, il lui faut désormais intégrer l’expérience utilisateur (ou UX).

Pour la première fois, on commence à considérer qu’une expérience de navigation réussie ne se résume plus uniquement à des questions ergonomiques ou techniques. L’écriture joue désormais un rôle crucial, et intègre pleinement chaque nouvelle stratégie UX d’un projet digital.

L’UX Writing et l’algorithme d’auto-apprentissage de Google

Comment tenir compte, concrètement, de l’expérience utilisateur dans une logique de référencement ? Tout simplement en faisant évoluer la compréhension de l’intention de recherche. Pour cela, les ingénieurs de Google déploient en 2015 un composant algorithmique qui va tout changer : RankBrain.

RankBrain est un système d'apprentissage automatique, basé sur l'intelligence artificielle. Il aide Google et l’algorithme de classement des pages à mieux comprendre la signification de la requête, notamment lorsque celle-ci est constituée de plusieurs termes. Avec RankBrain, l’assimilation des contenus prévaut désormais sur la seule analyse des mots-clés.

Très rapidement, RankBrain va devenir l’un des trois piliers du référencement selon Google, avec les contenus et les backlinks. Il est non seulement capable d’apprendre, mais aussi de comprendre. C’est le principe-même du deep learning.

Appliquée au domaine du SEO, la notion d’intelligence artificielle intégrée à RankBrain et couplée à la disponibilité accrue des données massives va rapidement s’imposer comme une technologie incontournable. Les algorithmes, dont le fonctionnement était autrefois limité, réalisent des progrès exceptionnels.

L’IA et la production massive de contenus

Comme c’est la coutume avec les évolutions techniques de Google, les mauvaises habitudes prennent rapidement le dessus. L’explosion de la production de contenus « de qualité » générés par l’IA pose rapidement problème. Subitement, n’importe qui peut créer des contenus sur n’importe quel sujet, contribuant ainsi à dégrader la qualité et la pertinence des résultats de recherche.

Le modèle économique de Google, basé sur la publicité ainsi que sur une filtration minutieuse des contenus pertinents, s’en trouve menacé. Toutefois, Google ne souhaite pas recourir à la pénalisation systématique des contenus générés par IA. Peu importe la méthode de création : si le contenu est utile à l’internaute, qu’il remplit les fameux critères E-E-A-T et qu’il ne cherche pas à manipuler les classements de recherche, tout va bien !

Pour détecter les contenus générés artificiellement et susceptibles de polluer les résultats de recherche, Google peut désormais compter sur SpamBrain. Ce système de prévention analyse les modèles et les signaux, afin d’identifier les contenus litigieux.

Plus que jamais, les bonnes stratégies en matière de création de contenus doivent s’appuyer sur le bon sens. Il ne s’agit plus de créer des contenus basiques pour satisfaire une logique de référencement, mais de comprendre les attentes des utilisateurs et y répondre de manière adaptée.

JÉRÔME HOST

La rédaction web : un voyage vers le temps long