|
Les news et dossiers YBET sur l'informatique. le
17-09-2008, dans la partie Internet
Les pénalités et sanctions de Google, et en plus ...
On se retrouve déjà avec quatre raisons de sanctions des sites de la part de Google. C'est déjà pas si
mal pour une année d'algorithme diront les plus optimistes et
pourtant ...
Google ce farceur, leur équipe de communication comme ses petits
outils ....
Pour les trois premières parties de ce dossier, j'ai analysé prêt de 700
pages pénalisées sur mes sites, plus beaucoup d'autres sur des sites qui ne
m'appartiennent pas, donc pas de statistiques réelles sauf Google
Trends mais qui ne concerne que les sites avec environ plus de 2000
visiteurs par jours.
Quels sont les outils utiles pour ce genre de tests et les quels sont
fiables:
- Le compte Google dans la partie Outils pour les webmasters.
- Le cache des pages de Google
- les recherches entourées de "" ou sans ...
- et ... la petite barre verte affichée (ou PR grisé selon les cas)
1. Les outils pour webmasters ....
Vous le savez probablement, dans le compte Google il y a un petit outils que
Google a développé gentiment pour aider les pauvres Webmasters que nous
sommes. Sympa Google, une véritable aide pour le référenceur, un petit outils
de communication ou de nouveau un précieux outils pour mes petits tests
sur le PageRank grisé? Pariez déjà pour un bel outils de tests.
Effectivement, les balises descriptions en double sont généralement des erreurs. Vous pourriez imaginer que dans ce cas, Google va griser la page, et
bien non. J'en ai quelques unes et toutes les pages en duplicate de meta
description ne sont pas sanctionnées. De toute façon, Google n'utilise plus la
description pour classer les pages depuis plus d'un an et demi..
Pour le reste, comme dit le Boss
de webrankinfo,
| "Si tu résous ton problème d'indexation grâce aux
sitemaps, tu devrais t'inquiéter (de l'architecture de ton site) plutôt
que de te réjouir." |
c'est une aide pour Google, pas pour le webmasters. D'ailleurs, il n'y en a
jamais eut sur mes sites et même la page plan de celui-ci n'est plus mise à
jour depuis trois ans. Les statistiques sont intéressantes déjà au niveau
visite des robots, mais qu'elles pages visitée à une date donnée,
mystère.
Le petit outils génial pour détecter les pages pénalisées, c'est la
partie liens ... Principalement la partie "liens internes" du site.
Dans les pénalités de
Google liés aux liens, j'ai déjà mentionné que la page a
avait un pagerank grisé, ... tiens, bizarre, elle n'apparaît pas dans les pages qui reçoivent
des liens internes. Remarquez qu'elle n'apparaît pas non plus dans les
pages qui envoient des liens. Pas grave peut-être? Sauf que ces pages grisées
n'apparaissent pas non plus comme envoyant un lien externe vers une page (Ca
devrait donner quelques petites idées aux spécialistes du copier / coller dans
les inscription dans les annuaires) et impossible de savoir si elle reçoit
des liens externes, une page avec un PR grisé n'apparaît pas non plus dans la
liste des pages avec liens externes.

Et oui la communication de Google avec les webmaster est bien là aussi.
Pourtant, même là, quelques erreurs: des pages avec un PR grisées mais
sans duplicate, sans structure pénalisée, ... sont bien là. Il doit
forcément y avoir autre chose en plus dans ces petites pages grisées qui
n'apparaissent pas dans les recherches (on va le
trouver)
2. Le cache des pages et aussi la date de mise en cache.
Modifier une page pour la rendre compatible avec l'humour (pardon l'humeur)
vert de Google, ça nécessite de savoir quand la page a été indexée. Ben
là, la date du cache est quasiment fausse à tous les coups (même si çà
dépend des data-center). Quand la date de modification de la page est inscrite
sur la page, Google donne régulièrement une date de cache antérieure à la
date de modification (parfois de plus de 15 jours quand même). .
Pourtant, la bonne question est plutôt Est-ce que Google visite moins
souvent les pages grisées? Quand on regarde les dates de caches, environ 3
fois mois que les pages à coté. Par exemple, la page A grisée du dictionnaire
date de 17 jours, celle de C, pour le moment pas (encore, soyons prudent)
grisée, date de 7 jours mais la date affichée par Google est fausse ...
Deuxième chose, est ce que les pages grisées envoient effectivement un
lien? Une excellente question également ... Dans les outils de Google, non.
En pratique probablement un petit peu (mais juste un petit peu) pour suivre les
liens contenus sur la page. J'ai fait un petit tests (toujours en cours d'ailleurs)
avec une page reprenant un texte, suivi d'un lien vers une page, suivi d'un pur
exemple de duplicate, suivi d'un lien vers une troisième page. Ben non, la
première page est connue, les deux autres pas dans les recherches, il faudra
peut-être attendre quelques semaines, voire quelques mois.
En clientèle cet après-midi, je tombe sur une page grisée du site du
client avec des liens internes vers quelques pages qui ne reçoivent QUE ce
lien. Vous ne devinerez pas, la page en question avec un cache affiché de prêt
de deux mois et les pages internes .... pas dans le cache.
Pas grave, je revient chez moi sur mon ordinateur principal et ... je regarde
de nouveau les caches de ces pages mais il reste votre
compte google quand vous êtes connectés .... Pas de modification pour la page qui
n'envoit pratiquement que des liens (ouf, ce farceur de Google n'a pas menti
chez mon client), sauf que les pages internes sont sur mon ordinateur affichées
avec ... 10 jours plus tard que celle de la page d'entrée. Soit, le robot est
un passe muraille, soit les dates de caches sont de nouveaux fausses (et on le
sait déjà), voire un data center récalcitrant, mais probablement plus
"vicieux".
Ben pas forcément, depuis 15 jours, j'ai remarqué quelque chose
d'étonnant. Je fais une recherche sur google concernant une page grisée modifiée,
vérifie jusqu'à la cinq ou sixième page sans rien trouver et reclick sur le
bouton rechercher ... et devinez où souvent se retrouve ma page comme par
hasard, dans les 10 premiers résultats (avec souvent une date de mise en cache
inférieure à celle des modifications). Alors, Google connaît mes sites via le
compte webmaster, sait que j'ai déjà visité la page et me la propose suivant
un profil bien établi, ...? Google favorise effectivement un peu mes pages dans
mes propres recherches (uniquement sur mon ordinateur principal) depuis plusieurs mois
mais là ... Et dans les tests de duplicate? Idem. Pour beaucoup de
petits tests, déconnectez votre compte Google, moi j'ai carrément utilisé un
autre ordinateur. Et voilà mon ordinateur fiché comme Webmaster
(après la carte électronique belge et EDVIGE pour les
français, ... ça fait beaucoup). Pourtant, j'ai un peu approfondi le sujet, toutes les
pages que j'ai testé en cache qui n'apparaissaient pas la première fois
apparaissaient la deuxième ou troisième fois (quelque soit l'ordinateur en plus). Tout se
passe comme ci Google allait rechercher le cache de ces pages avec un PageRank grisé dans le fin fond du tiroir de la vieille commode de Grand-mère soigneusement rangée au bout du grenier. Par
contre, pour trouver la page sans les "" dans les recherches Internet, là
toujours non.
3. Vous avez dit orthographe?
Dans la liste des pages grisées de mes sites et d'autres, il y en avait encore quelques
unes qui ne répondaient à aucun de mes critères de pénalités. Dans mes
petites recherches sur Google entre guillemets (je parle du texte de la recherche, forcément), je parviens maintenant à trouver la phrase qui pose problème (cf.
les tests sur le duplicate). Pourtant, souvent pas de duplicate pour cette
phrase ou même pour d'autres .... juste une petite erreur de conjugaison, du
genre j'ai surfer, mais j'avoue que malgré un père instituteur
n'avoir jamais été copain avec l'orthographe (en plus je sais que l'infinitif
est plus souvent tapé dans les recherches et peut-être inconsciemment comme déformation professionnelle, ...).
C'est un copain, Blogger,
qui m'a donné finalement la solution (vous pouvez le rencontrer sur son blog, conversation
de comptoir). Depuis une grosse baffe de Google sur un de ses sites, son
esprit "braconnier ardennais" s'est assagi. Pourtant, comme
tout repenti, il jette de temps un temps un oeil de l'autre coté de la clôture,
histoire de se rappeler que l'herbe semblait plus verte de l'autre coté.
Certains sites reprennent des pages d'autres sites et utilisent des logiciels
qui vont utiliser des synonymes et autres bricolages du même genre, je le cite:
| Pour créer un article neuf automatiquement, il y faut
rechercher et remplacer les synonymes, traduire et retraduire la page .
Cela fait une sorte de soupe illisible, les plus évolués des rewriter
utilisent la correction orthographique et grammaticale de OoO. |
Et voilà, la presque dernière raison des pénalités de Google sur
les sites Internet. Pour supprimer ces exercices de programmation, Google et ses
linguistes ont ajouté dans l'algorithme de positionnement des filtres sur
certaines formes de traduction mal faites, mots inappropriés (synonymes pas en rapport avec le contenu de la page) et ... notamment la conjugaison.
Pour la dernière, il m'a fallu beaucoup de temps pour comprendre. Je me suis
souvenu de mes statistiques visiteurs sur ce site d'il y a quelques années.
J'avais casé une page sur le mot excell (remarquez tout de suite la grosse
"fôte" d'orthographe par rapport à Excel,
le nom du tableur). D'abord faite par hasard, j'avais vite remarqué le
nombre de visiteurs venant de Google sur cette requête et malicieusement, j'avais poussé le vice à
insérer dans le cours Excel une page INTERNET particulièrement optimalisée sur cette
requête. Beau travail puisqu'elle était non seulement première sur
Google.be mais aussi sur Google.fr malgré la localisation
belge du site: résultat, une
bonne vingtaine de visiteurs par jour venant de Google pendant quelques années
(et dans le référencement, seul le nombre de visiteurs compte, enfin presque, tant
que c'est en accord avec les "guides lign" de Google). Et depuis
des mois, plus de visites sur ce terme. Et comme par hasard, sur la recherche,
un petit texte gentil de Google pour aider l'internaute à .... corriger son
orthographe.
Essayez avec cette orthographe : excel
Et plus la page dans les résultats en France. Finalement, Google a intégré
dans son algorithme les suggestions qu'il proposait aux internautes depuis des mois.
Alors, j'ai essayé sur des pages sanctionnées sans logique cette
"correction de ma pauvre orthographe" et abandonné définitivement
l'orthographe phonétique ou jugée par Google comme "personnelle", rangeant au vestiaire mon idée "presque légitime" d'une orthographe libéralisée, pas du SMS puisque compréhensible sans l'outils de traduction
de Google mais juste un peu libre. Et
oui, Google est devenu un farceur qui m'aide dans mon orthographe ...
Décidément, le moteur de recherche le plus utilisé au monde songe à tout, y
compris aider les "pauvres référenceurs" dans leur quête du savoir.
4. Quelques petites choses quand même.
Google rassemble ou dissocie les mots, essayez "don d e quad yamaha 350 raptor"
comme recherche et tout de suite, le résultat va relier d et e pour en faire
de. Par contre, essayez photonumérique et Google va vous donner son orthographe
"photo numérique", le - entre les deux mots ne donne pas tout à fait
les mêmes résultats mais presque. Par contre, la page avec la faute est bien
grisée et déclassée (faudra que j'y songe sur Excell d'ailleurs). Au passage,
merci aussi de prévenir le site officiel d'un pays africain qu'il risque de se
faire déclasser par Google pour essayer de passer sur la recherche acceuil (là
je rigole, les sites gouvernementaux sont rarement pénalisés).
Dans son esprit de communication, Google a mis en ligne sur son blog, une
explication du duplicate
content le 12 septembre 2008. Et non, c'est un truc pour journaliste, pas
pour aider les webmaster, juste un texte global qui donne quelques indications
pour les webmasters débutants. Google n'a pas vraiment sur ses articles
dédiés au référencement de flux RSS, probablement que leurs webmasters ont
aussi ... peur du duplicate content. Entre nous (et vous le répétez pas à
Google ... je vous fait confiance), ce lien je l'ai mis en nofollow. L'attribut rel="nofollow" ne
changera rien au positionnement de cette page, j'ai aussi testé, et certainement beaucoup moins que du duplicate content que j'ai mis volontairement sur ces articles, .... des
tests, toujours des tests: on me changera pas
5. Pages grisées plus dans les résultats?
Un Page Rank grisé (unranked comme diraient les américains) signifie
automatiquement plus aucun visiteur de Google vers cette page? Si c'est une
nouvelle page, elle n'est pas encore notée, normalement elle apparaît dans les
résultats des recherches, mal peut-être mais elle apparaît. Pour les autres
qui sont redescendues en "retenue à l'étude de l'école",
c'est autre chose. Dans la majorité des cas, non, elle est en bout de
classement et quasiment inaccessible pour une recherche standard. Par contre,
des pages avec un PR grisé qui sont corrigées réapparaissent automatiquement
lors du crawl suivant du site par les robots de Google. Ce n'est donc pas une
sanction définitive, plutôt un déclassement temporaire. De même, des
pages non modifiées apparaissent également dans des petites recherches sans
importances, pas souvent tapées, mais plutôt quand Google ne trouve rien
d'autre à afficher (et encore).
Des groupes entiers de pages passent en PR grisé, tout le site atteint? Là
non plus, sur ce site, toute la partie interne du Forum et de vente en ligne ont
perdu leur petite barre verte en août 2008 (date de la dernier Google Danse au
moment de ce dossier sur les pénalités
de Google), le reste du site fonctionne sans problème. Pour ces parties,
les visiteurs continuent à venir par Google. Si les pages sont moins présentes
dans les recherches en 1 mot ou deux, le contenu (s'il n'est pas en
contradiction avec le modèle de positionnement des pages) reste intéressant, y
compris pour Google. Donc pas d'excès d'optimisme, et pas non plus de
réactions genre, c'est rien. Le seul de mes site réellement sanctionné sur
Internet récupère quelques visiteurs de Google (même si j'avoue, pas
énormément), juste que les visiteurs arrivent à prêt de 95 % sur les pages
non sanctionnées. Il faut juste corriger.
J'ai un petit site local de dix pages et mes pages internes (pas la page
d'accueil) datant de quelques mois ont un Pagerank grisé affiché dans la barre
d'outils, Google m'a sanctionné? Déjà, il faut attendre une mise à jour du
PR pour être certain. Deuxièmement, si le site a peu de liens qui pointent
vers ses pages, Google n'a pas forcément repris les pages dans ses calculs.
6. et en dernier ...
Dix mois de tests, des dizaines d'heures à essayer de comprendre le PageRank grisé,
... Pas seulement pour ce dossier, aussi pour ME permettre de comprendre et mieux positionner mes sites, aussi pour permettre à des membres d'un
forum de référencement que je fréquente depuis des années de comprendre, un
juste retour pour ce forum qui m'a beaucoup appris pendant ces années. Pour en
discuter, c'est plutôt là que je vous invite, plus particulièrement
sur ce post
de WRI. Le site ybet.be ou même son forum, quoique reprenant des parties de cours
de positionnement, n'est pas vraiment spécialisé sur ce domaine, celui-là
oui.
En dernier, cette série d'article sera probablement (un peu) modifié dans
les jours qui viennent. Déjà corriger l'orthographe (on sait jamais),
vérifier si j'ai pas (par erreur) mis la même phrase que sur un autre site (le
duplicate ...), peut-être supprimer des liens de navigation (quoique dans ces
pages il y a du contenu), ... mais sûrement pas relire toutes les phrases en
vérifiant si j'ai pas (sans le savoir) copié 10 mots de suites déjà repris
sur un autre site.
Les pénalités de Google sur les sites depuis octobre 2007 jusqu'à août
2008 , c'est:
- Vente de liens (achat aussi, mais c'est pas franchement nouveau) et Google
est registar, de fait, s'envoyer des liens entre sites du même webmaster
n'ont pas la même valeur.
- Pages reprenant trop de liens dans la partie contenu.
- Pages avec un seul lien externe jugé trop "donnant"
- Faible contenu avec beaucoup de liens de navigation au-tour
- Duplicate content, y compris un morceau de phrase, temps de conjugaison, ...
- Conjugaison "personnelle"
- Fautes de frappe pas forcément faites exprès mais (parfois) pour
récupérer des visiteurs
Quelques solutions en vracs, c'est:
- Corriger les parties copiées, y compris des petits morceaux de phrases
(même si Google détecte souvent - parfois - n'importe quoi, y compris des
phrases standards)
- Dans les pages de liens, rajouter du texte DANS la partie contenu, ou
recevoir des liens externes d'autres webmasters
- Supprimer l'orthographe "libre", Google est maintenant (au
moins) en troisième primaire, un niveau 3ième cycle pour les français (je
pense, mais comme belge, jamais compris leur niveau de scolarité en
fonction de l'âge)
- Dans les pages dites "partenaires", reprendre (en plus de textes
supplémentaires) de vrais liens, pas des échanges liés au référencement
Un petit message personnel peut-être? Google est probablement le meilleur
moteur de recherche actuel, quelques unes des pénalités sont légitimes, mas
là c'est pas peut-être un peu surfait? Supprimer des pages pour fautes de
conjugaison ou d'orthographe (je parle par hasard, pas intentionnelle). Comme
belge, si je met dans une phrase nonante (et pas quatre-vingt ... dix), c'est
pas une faute d'orthographe c'est le vocabulaire belge ... sanctionné? Si je
tape mes articles (mes pages) et reprend (par inadvertance) un morceau de phrase
de quelques mots, sanctionné? Une page servant de liaison pour un chapitre d'un
cours (ou autre) ne reprenant que des liens internes, faite pour diriger les
visiteurs sur ce qui les INTERESSENT dans cette partie, pénalisée?
Je sais, c'est la méthode de positionnement de Google pour les pages, ou
plutôt son algorithme, ... Faudra juste pour les référenceurs et autres
webmasters s'adapter à la version écologique (verte) de Google, déjà ses
serveurs seront moins gourmand en énergie en "oubliant" presque
d'enregistrer des pages pas trop dans ses normes.
Pour la majorité des sites, ... ces pénalités sont inexistantes, ce
sont SURTOUT les sites créés par des spécialistes du référencement et les
copieurs qui sont
touchées, Google n'est pas en train de supprimer des sites depuis un an, juste
de faire un peu de nettoyage sur ses serveurs, de type Monsieur "vert"
Propre lave tellement blanc qu'il enlève aussi parfois le dessin de la faience du
carrelage de la cuisine. Comme pour ici, on va plutôt considérer que c'est la
peinture qui est mauvaise, pas forcément le détergent.
<<< Les sanctions de duplicate content (3) (15-09-2008) - Windows 2008 HPC server (19-09-2008) >>> Proposée le 17-09-2008
D'accord ou pas, voilà ce que d'autres en pensent - Merci beaucoup par guyh, article commenté le 03-01-2010
Un grand merci pour vos pages qui me remontent le moral , je me bagarre depuis plus d'un an pour solutionner mes problème de référencement et de déclassement.
Vous m'avez donné quelques pistes intéressante et surtout je me sens moins seul dans cette quête du Graal. Présent depuis 1997 sur le net, nous n'avions jamais passé autant de temps à maintenir et modifier nos pages pour éviter les foudres du vénéré OoO. Comme dit un de mes amis , Force et Courage.
|
Insérer un commentaire sur cet article
|
|