Salut tout le monde, dans ce premier article de notre catégorie « formation référencement », nous allons voir comment le référencement s’est constitué comme discipline. Grâce à ce petit voyage dans le temps, nous allons comprendre pourquoi le référencement s’est transformé jusqu’à prendre la forme qu’il a aujourd’hui.

La Préhistoire du Web

Quand Internet est apparu, on ne trouvait pas de moteurs de recherche. Il faut dire que le nombre de sites en ligne était relativement limité, et qu’on en était vraiment au balbutiement de ce qu’est le Web aujourd’hui. Du coup, pour qu’un site soit dans un index quelconque, il fallait simplement… le faire indexer !

Le processus était relativement simple : on inscrivait son site quelque part, et il se retrouvait dans une grande liste. C’était un peu l’ancêtre des annuaires qu’on trouve aujourd’hui, et du coup, c’était assez difficile de trouver un site précis, sans connaître son URL.

Le travail des robots était donc super simple, on leur soumettait un site, ils le parcouraient, et rafraîchissaient l’index créé.

La recherche organique était donc pratiquement impossible, et il fallut remédier à cela avec une nouveauté : les premières balises meta.

L’apparition des premières balises meta tag

Un tag, c’est quoi ? Simplement un mot-clé ! Histoire de préciser le sujet d’une page aux robots qui parcourent la toile, on insère simplement une balise pour indiquer ce qu’on y trouvera comme contenu. Il faut dire qu’à cette époque, les robots ne comprenaient rien de rien aux textes rencontrés, il fallait donc rentrer dans cette balise une chaîne de caractères qui, elle, sera à priori comprise par les internautes.

Les débuts du Black-hat

L’introduction des premières balises meta, et leur utilisation pour classer des sites, ça a forcément été le début du Black-hat. Un Black-hat, c’est un référenceur qui va utiliser tous les moyens à sa disposition pour pousser un site dans les résultats de recherche. Parfois en enfreignant les consignes données par les indexeurs ou les premiers moteurs de recherche, parfois en enfreignant la loi. Le spectre est large, et chacun saura apprécier la moralité des pratiques rencontrées.

L’introduction des premières balises meta, c’était donc la naissance du bourrinage qu’on va rencontrer massivement pendant une dizaine d’année. La balise meta-keyword vient de sortir ? OK, on va la remplir (à fond). La meta-description vient de tomber ? OK, on va la remplir (A FOND). Pas forcément en mode honnête, mais bien plutôt en mode « violent ». C’était la naissance du keyword stuffing.

Et donc, forcément, devant les abus de certains webmasters, il a fallu trouver une nouvelle méthode pour gérer tout ça…

La naissance du Page Rank

En 1996, Larry page et Sergey Brin créent un moteur de recherche baptisée Backrub. Le principe est assez simple : si un site Internet est pertinent, alors il recevra de nombreux liens de la part d’autres sites. Et, s’il est pertinent, il mérite d’être mieux classé que les autres. L’algorithme du page rank attribue donc une note aux pages, et cette note servira à les classer sur des requêtes données.

Larry Page et Sergei Brin

Il est important de comprendre que ce comportement, c’est le socle de Google (et qu’aujourd’hui, ça les met un peu dans la merde).

Toujours est-il que, si ce qui compte le plus, c’est le nombre de Backlinks, alors pas de souci pour nos proto-référenceurs des années 90 : pour pistonner une page, il suffisait de créer une autre page, ou mieux, plein d’autres pages, avec un lien qui pointe vers la page dont on veut optimiser la position.

Et voilà, c’était joué : le Webspam était né. Et tout ce qui va s’en suivre, c’est une longue guerre entre Google et les SEO !

L’affinage des algorithmes

En utilisant le nombre de liens comme une base de classement des sites, Google s’est tiré une balle dans le pied. Le marché du Web se développe, les intérêts économiques vont croissant, et du coup, de nombreux webmasters adoptent des stratégies agressives pour faire de l’argent grâce à leurs sites : naissance des fermes de liens (des pages moisies contenant uniquement des liens), piratages de site pour y apposer des liens, utilisation de templates de site « gratuit » avec des liens planqués un peu partout etc.

Conséquences : les résultats de recherche se dégradent, et Google doit réagir.

Comprendre les pages

Google répond en créant de nouveaux algorithmes et des filtres. Principalement, Google s’attache à créer des robots intelligents, qui sauront « comprendre » le sens d’une page en faisant une analyse des mots qu’on y retrouve et en les pondérant grâce aux marqueurs HTML (balise title, balise H1, ancres de liens etc.). Cette approche engendrera plus tard la naissance d’algorithmes comme Panda et Hummingbird.

Forcément, la réponse des référenceurs, c’est de faire du keyword stuffing : on remplit la page et les sites de mots-clés (plombier Paris, plombier Marseille, plombier Lyon etc). C’est laid, c’est saoulant pour le lecteur, mais ça marche…

Créer un profil attaché aux sites

Devant la multiplication des fermes de liens, et devant la dégénérescence sémantique des pages Web, Google affine sa stratégie, en essayant de déceler une footprint sur les sites qu’il parcourt. Cette footprint, comme son nom l’indique, c’est une empreinte, un marqueur qui permettra de mettre en évidence des schémas récurrents pour détécter le spam.

Parmi les nouveaux algorithmes mis en place, on pourra citer Dominic, qui change la façon dont sont comptés les liens, ou Cassandra, qui identifie les propriétaires de domaine et détecte les textes cloakés (textes blancs sur fonds blancs par exemple, cloaking par identification du user-agent etc). Par la suite, Google poussera l’analyse en identifiant les machines qui hébergent les site, les CMS utilisés, et tout ce qui sort de valeurs statistiques considérées comme « normales ».

Taper sur le spam

Nous sommes dans les années 2000, et la guerre contre le spam fait rage. Identification du keyword stuffing, du meta-tag stuffing, prise en compte du texte d’ancre pour les liens, identification des réseaux de sites, Google multiplie et complexifie ses algorithmes pour supprimer de son index les pages de spam. Le travail de la Webspam-team est long, complexe, et en plus de l’algorithmique, des contrôles manuels sont effectués.

Pourquoi cette lutte contre le spam ? Simplement parce que Google protège son marché. J’insiste sur ce point, car il est très important pour avoir une bonne compréhension du marché de la recherche aujourd’hui : Google est une entreprise capitaliste. Comme toutes les entreprises, Google recherche le profit. Et son produit d’appel, totalement gratuit, c’est justement la recherche organique. Par-dessus ça, on pourra trouver de l’Adwords, qui est aujourd’hui une manne financière gigantesque.

Si les résultats de recherche sont médiocres, les utilisateurs vont se tourner vers un autre moteur, et donc, ne pourront pas cliquer sur les Adwords. Donc fin des rentrées d’argent pour Google. Protéger les résultats de recherche, pour Google, c’est simplement un moyen de protéger les 46 milliards de dollars de CA que cela engendre chaque année

Optimiser l’indexation et les résultats

Par la suite, Google va travailler sur la rapidité d’indexation des pages et la personnalisation des résultats de recherche, dans une logique de fidélisation de sa clientèle. Une série d’algorithmes et de nouvelles pratiques voient le jour : indexation massive, Latente Semantic Indexing, création du Sitemap.xml, recherche personnalisée, le but du jeu étant de proposer les résultats les plus pertinents possible, indexés le plus rapidement possible.

Les efforts paient, et Google confirme rapidement sa position de leader sur le marché.

Et puis, en 2009, c’est le drame…

Le jour où Google trembla

En 2009, le modèle d’indexation de Google s’essouffle. Les robots peinent à parcourir toutes les pages rencontrées, la faute, justement, aux nombreux sites de spam, dont la seule raison d’être est d’améliorer le référencement de « money-site » (sites vitrines, sites rémunérés grâce à la publicité, sites e-commerce etc).

Il faut dire que les spammeurs se sont particulièrement bien adaptés aux nouveaux filtres de Google, en revoyant sensiblement à la hausse la qualité de leur travail : les pays d’Europe de l’Est, l’Asie du sud-Est et la Chine sont particulièrement mis à contribution par les entreprises occidentales pour des prestations de référencement.

Du coup, le nombre de page à indexer explose, et Google tire la langue. Indexer et classer le Web, à une heure où la Chine fait des sites satellites pour référencer les sites des occidentaux, ça coûte du pognon en électricité, et ça tape dur sur les serveurs ! Les méthodes de netlinking de l’époque étaient très agressive, donnant du coup beaucoup plus de travaille aux moteurs de recherche.

link-building

La réponse, c’est une refonte d’infrastructure baptisée Caféine (Google ne choisit jamais les noms de ses algos par hasard).

La pre-release de Caféine en 2009 annonce une nouvelle ère. Le spam risque de mettre ses capacités d’indexation à genoux et Google décide de mettre les bouchées doubles pour éradiquer cette pratique : Panda et Penguin sont dans les tuyaux…

La problématique fondamentale du SEO en 2015

Récapitulons : pour classer une page, Google doit comprendre de quoi elle parle. Sinon, il ne pourra pas la mettre en compétition avec d’autres pages optimisées sur la même requête. Ça, c’est tout le travail de compréhension sémantique de l’algorithme. Et après, comment on fait pour établir un classement ?

Bah avec les liens ma pauv’dame. Les backlinks. Comme sous Backrub.

Merde.

Je simplifie volontairement, mais l’essence du référencement, elle est là.

Les robots des moteurs de recherche parcourent les sites grâce aux liens. Donc, plus vous avez de liens (attention, des bon liens, je simplifie volontairement la chose), plus il y a de chances que les bots de Google parcourent votre site.

Et c’est ça, justement, le page Rank : la probabilité de présence des surfeurs aléatoires de Google !

La problématique des moteurs de recherche aujourd’hui, c’est principalement de faire le tri entre les « vrais » liens, et ceux des pages de spam… Et la suite de cette lutte chez Google, c’est Panda, Penguin, et les autres filtres/algos qui sont sortis depuis 2010.

Le zoo de Google (conclusion)

Depuis 2010, le géant de Moutain View a sorti un véritable Zoo d’algorithme : Panda, Pinguin, Hummingbird (colibri), Pigeon etc. On va pouvoir arrêter là et ne pas entrer dans les détails, car on traitera ces nouveaux filtres dans un autre article.

Retenez une seule chose : Panda et Pingouin n’ont été mis en place que pour contrer les sites de spam qui sont mal montés (j’insiste sur ce point, parce que, clairement, Panda, c’est du pipi de chat, et Penguin, on la lui fait à l’envers assez facilement).

google-zoo

Le jour où Google émettra des certificats électronique pour identifier les rédacteurs de sites, on en aura terminé avec le spam. Mais d’ici là, il y aura toujours moyen de tricher en faisant une bonne veille technologique et en s’adaptant aux nouveautés.

L’histoire du référencement, c’est en définitive un bras de fer entre Google et les SEO. Le reverse-engineering est possible, et c’est un phénomène global qui a conduit inexorablement à la création des sites de spam (satellites, pyramide de liens, linkwheel etc).

Aujourd’hui, contrairement à ce qu’on peut lire un peu partout, le référencement n’est pas mort. Le SEO de bourrin écervelé, pratiqué entre les années 2000 et 2010, à grands coups de Keyword-stuffing ou de link-building de cochon, oui, celui-là, il est mort et enterré. Mais, dans une ère post penguin-panda, clamer « SEO is dead », c’est juste un triste aveu d’impuissance

A propos de l'auteur
Charles Annoni

Charles Annoni est chef de projet web depuis 2008. Formateur en référencement naturel, E-commerce et Webmarketing (Groupe FIM, AIFCC, IAE de Caen), il est également Webmaster Freelance et accompagne les entreprises dans leur développement sur le web.

Laisser un commentaire

J’accepte les conditions générales d'utilisation et la politique de confidentialité