15.3. Résumé du référencement sur
Google (mise à jour 08/10/2015)
1. Hébergement, nom
de domaine, géolocalisation.
- 2. Architecture du site - 3. Contenu des
pages - 4. Liens internes et externes - 5. En
conclusion
Le précédant chapitre nous a donné quelques
explications sur la manière qu'utilise le moteur de recherche pour positionner
les pages dans les résultats de recherche. Ce chapitre résume les différentes parties.
-
En
vert, ce qui améliore le positionnement d'une page
-
En
rouge ce qui est néfaste
-
En bleu,
ce qui ne semble pas intervenir.
-
En orange, ce
qui peut être intéressant ou défavorisant selon la méthode employée.
Depuis décembre 2007, Google a fait un peu de
ménage dans le positionnement et semble défavoriser tout ce qui ne semble
"pas naturel". Depuis juin - juillet 2008, Google a nettement amélioré
la technique de détection du Duplicate content (y compris quelques phrases dans
un texte). Ce résumé va également permettre de supprimer
quelques "on dit" dans le monde du référencement amateur.
La géolocalisation est la technique utilisée par
Google (MSN et Yahoo le font également) pour avantager les sites dans leur pays d'origine. Elle permet également
pour un site belge d'être plus visible dans les recherches sur Google.be par
rapport aux sites français (et forcément l'inverse pour les sites Français et
autres), mais aussi d'être visible sur les pages
belgique.
- (+) .com, .org, .net: hébergement dans le pays
que vous ciblez: les .eu semblent pour l'instant avoir un statut
spécial et peuvent être présents sur plusieurs pays, en fonction du pays
d'hébergement mais aussi des liens qui pointent dessus, voire des
extensions nationales des autres sites hébergés sur le serveur.
- (+) .be, .fr, .de, ...: les sites avec
une extension de pays sont d'office localisés sur le pays de l'extension.
- (-) pannes prolongées, site inaccessible
plusieurs jours, voire plusieurs semaines.
- (-) Redirection, .tf.be, ... ces extensions
gratuites ne sont pas suivies par les moteurs de recherche, elles utilisent
une redirection utilisant le langage script. Un site en sous domaines ou même un hébergement de type http://users.skynet.be/ybet
est équivalent en référencement qu'un nom de domaine (avec quelques
restrictions au niveau de l'inscription dans les annuaires).
- (-) Contenu copié (Duplicate content): solution
adoptée pour utiliser deux noms de domaines pour le même site, souvent
utilisée pour l'extension géographique et le .com.
- (~) mots clés dans le nom de domaine:
En 2005, quand Google a commencé à mettre en gras les mots recherchés
dans le titre, la description et l'adresse, l'idée était que Google tenait
compte de l'URL pour positionner la page. C'est faux. Par contre, les liens venant des forums
sont souvent de type http://www.ybet.be/internet15/referencement.htm
... reprenant les mots clés. Le - est vu comme séparateur, le _ non. Une sur-optimalisation
dans le nom de domaine défavorise également.
- (~) hébergement lent, messages d'erreur MySQL,
...: des pages lentes à charger n'ont pas l'air d'influencer le
comportement du robot, y compris des erreurs sql lorsque le temps de
réponse est trop long.
- (~) plus de trois mots dans le nom de domaine:
Google semble bloquer les sites ayant plus de trois mots dans le nom. Si
vous utiliser cette technique, privilégiez le - comme séparateur. De toute
façon, un nom de domaine court et facile à retenir favorise les visites en
directs.
Dans cette partie, je reprend la première chose à
faire lors de la création d'un site, comment organiser les différents
chapitres et pages. Suivant le nombre de pages prévues, vous pouvez utiliser
une structure de liens internes en ligne (peu de pages, toutes les pages reçoivent
un lien de toutes les autres). Une architecture en arbre en utilisée pour les
sites reprenant des chapitres distincts. Les gros chapitres reprenant un liens
de la page d'accueil, les sous chapitres reprenant des liens des chapitres
inférieurs et du chapitre. Certains sites (dont ybet.be) utilisent une
structure en arbre hybride. Des pages de sous-chapitres différents sont liées
entre-elles. Cette technique ne s'utilise que lorsque les chapitres sont
similaires. Dans le cas contraire, ces liens spéciaux sont déclassant.
Les sous-domaines (exemple: http://chiny.darut.be
est un sous domaine de www.darut.be) sont vus par Google comme des sites
distincts suivant quelques critères (à l'inverse des dossiers). Sur une
recherche, le domaine et les sous-domaines apparaissent comme des sites
distincts. Utilisés en spams par quelques uns, L'algorithme commence à les
sanctionner s'ils incluent un petit nombre de pages, surtout si les liens entre
domaine et sous-domaines sont trop nombreux et répétitifs.
Le responsive design permet d'adapter le contenu aux smart phone
(en fait à la taille de l'écran). Google l'a annoncé début 2015, il favorise
les sites (et pages) répondant à ces techniques pour les recherches à partir
de smartphones et petites tablettes.
- (~) sous-domaines -
dossiers: utilisation de
sous-domaines pour les parties importantes (en nombre de pages) qui sont
clairement dissociées du site principal en type de contenu, dossiers
pour les petites parties.
- (~) utilisation d'une page plan du site, sitemap:
Utilisée pour permettre au moteur de reprendre toutes les pages du site,
privilégiée par beaucoup de référenceur (google préconise un sitemap)
pour favoriser l'indexation, ces techniques interviennent peu. ybet.be
n'utilise pas de sitesmap et la page plan n'est pas mises à jour depuis des
années, sans trop poser de problèmes. Une remarque tout de même, ce site
utilise une structure de liens internes hybride.
- (-) paramètres de session:
utilisée dans certains CMS, un chiffre est utilisé dans l'adresses des
pages pour suivre les utilisateurs. L'adresse change donc à chaque connexion,
... Certains CMS permettent de forcer les cookies ou même de suivre les navigations
directement via l'adresse IP de l'internaute
4.1. Balises, Meta
- (+) Mots clés dans le titre. Le titre
de la page est toujours le principal facteur de positionnement d'une page.
Les mots importants doivent être mis le plus à gauche possible. Evitez les
listes de mots, Google semble privilégier les phrases (utilisation de le,
la, ...).
- (+) Mots dans le texte de la page. Même
si des contre-exemples existent, une page n'est pas positionnée sur une
recherche si le mot n'est pas repris sur la page.
- (+) balises H1, H2, .... Utilisée
correctement dans les pages, la hiérarchisation en paragraphes et
sous-paragraphes permet un meilleur positionnement. Google ne semble plus
trop utiliser h2 et les suivantes. Evitez d'en mettre trop (genre h2, trois
mots en normal, suivi de nouveau par un texte en h2), Google détecte une
sur-optimalisation et défavorise le positionnement de la page.
- (~) Meta Keyword: la balise keyword
n'est plus utilisée par les moteurs de recherche. Par contre, si elle n'est
pas en concordance de la page, elle peut défavoriser le positionnement.
- (~) Mots clés dans la description:
Google n'utilise plus la description pour positionner les pages depuis
début 2007. Par contre, elle est souvent affichée comme descriptif dans
les recherches. Mieux vaut donc que le texte soit attirant pour le visiteur
que reprendre une liste de mots.
- (~) Balise <HTML>, <Head>, <BODY>:
déjà, sans le header, peu de chance de mettre les balises titres et
descriptions .... Si Google passe plusieurs balises <head>
</head> (mais utilise la première), les autres moteurs de recherche
ne voient pas le contenu après la deuxième <head>. Cette erreur
intervient souvent en utilisant les commandes
PHP include ou require.
La
liste des Meta
est reprise dans un autre chapitre de la Formation Internet
4.2. Adresse et fonctionnalités
- (~) utilisation du - séparant les mots clés
dans le nom des pages: la remarque est identique à celle sur les
noms de domaines. Ici aussi, une page nommée http://www.ybet.be/referencement-google/google-referencement/google.htm
va nettement défavoriser la page par sur optimalisation (mais est-ce que ce
nom de page Internet a l'air naturel). Par contre, ceci favorise la
maintenance des pages (en HTML) et est intéressante avec des liens venant
de forums (identique au ndd).
- (~) URL rewriting: l'adresse de la
page n'intervient que peu dans le positionnement d'une page, l'URL rewriting
n'a donc qu'un intérêt limité (à part de nouveau pour les liens
provenant des forums). Avec un seul paramètre de passer, il n'y a pas de
différence. A partir de 3, les moteurs ont simplement du mal à les indexer
(MSN bloque carrément à 3).
- (~) validation W3C : aucune influence
sur les moteurs de recherche, permet juste (et encore au conditionnel) une
meilleure compatibilités avec les navigateurs Internet.
- (~) utilisation du CSS pour positionner les
textes en remplacement des tableaux : aucune influence sur les
moteurs de recherche, permet juste de positionner plus haut le texte dans le
code. Par contre, ça augmente la vitesse de chargement des pages.
- (~) PR de la page: le page rank d'une
page influence peu le positionnement. Pourtant, il est lié aux nombre de
liens qui pointent vers elle, ce sont les textes des liens pointant vers la
page qui favorise son positionnement, pas son PR.
- (-) Duplicate content:
un contenu identique ou trop similaire défavorise les pages. La première
solution est déjà de mettre des titres et descriptions différentes sur
toutes les pages. Une fois cette partie faite, le texte interne doit être
modifié pour reprendre des pages différentes au niveau contenu. Google a
nettement amélioré la détection en juin 2008. C'est probablement ce qui a
déclassé la majorité des pages internes des annuaires. Une ou deux
phrases identiques sur quelques sites suffisent à griser la page (Pagerank).
Dans ce cas, elle n'est soit plus du tout reprise dans les recherches, soit
déclassée.
- (-) utilisation de frames:
utilisée par les anciens sites, cette technique ne permet pas directement
au moteur de voire le contenu de la page.
4.3. Contenu
- (+) mots clés disséminés dans du texte.
répéter plusieurs fois le mots abusivement dans une partie du texte (et
pas dans le reste du contenu) provoque généralement un déclassement. Les
mots clés doivent être si possible disséminés dans l'ensemble du texte
et séparés par des caractères de liaisons (le, de, ...), les suites de
mots clés séparés par des virgules sont détectés comme une tentative de
passage sur des recherches non conformes
- (-) utilisation abusive des synonymes, occurrences
des mots trop élevés: Google
détecte maintenant les variantes singuliers / pluriels (alors autant ne pas
trop jouer). En plus, il commence à détecter les synonymes: restaurant est
quasiment assimilé à restaurateur dans les résultats. Les insérés à
outrance dans une page ne sert quasiment plus à rien
- (~) pages en PHP, asp ou html: aucune
incidence, le moteur ne voit que le texte de résultat.
- (~) pas de spécification du content-type,
content-language dans le header : Google détecte la langue de la
page sans problème. Par contre, ça peu apporter des problèmes d'affichage
des caractères accentués dans les résultats de recherches.
- (~) mise en valeur des mots clés en gras, italique,
souligné : aucune modification de positionnement. <b> est
également strictement identique à <strong> pour l'affichage et pour
... google et les autres moteurs de recherche. Par contre elle peut
défavoriser par sur-optimalisation.
- (-) texte caché ou non cohérent:
la technique des mots clés cachés est utilisée depuis quasiment le début
du référencement avec plus ou moins de bonheur (texte de la même couleur que le fond, DIV Hidden, ...).
En premier, cette technique peut amener de la sur-optimalisation et donc
désavantager la page. En deuxième, même si le formulaire Google de spams report
n'est pas vraiment pris en compte (dénonciation anonyme), celui présent sur le compte
webmaster l'est nettement plus, le risque est de voire le site complètement
supprimé des résultats des recherches.
- (-) utilisation du flash:
utilisée par les designers pour "faire joli", les animations sont
peu vues par les robots de Google au niveau contenu texte et liens. Par
contre, Google vient de reprendre une technologie d'Adobe et commence à
détecter le texte et les liens dans les petites animations.
4.4. Images
- (+) Balise ALT rajoutée dans les images et
photos: Elle est vue par les moteurs comme un texte de remplacement (le W3C lui donne le
statut de permettre une meilleure accessibilité aux mal-voyants en plus).
Utilisée correctement (pas des suites de mots clés) elle peut ajouter du
contenu sur la page. Par contre, comme elle est finalement cachée à
l'utilisateur, elle peut être pénalisante par sur-optimalisation
- (~) nom (adresse) des images: aucun
intérêt en référencement, y compris pour Google image qui utilise le
texte au-tour pour le positionnement.
4.5. Navigation
Google principalement sait faire la distinction entre
la partie navigation (liens entre les plages) et la partie contenu. Une partie
navigation répétitive sur les pages et trop importante risque vu sur les pages
à faible contenu comme le réel contenu de la page, déclassant toutes les
pages dont le texte est faible. Ceci a souvent un effet boule de neige.
- (-) Trop de liens de navigation sur chaque
page avec faible contenu.
- (-) Lien de navigation avec petit texte explicatif
sur chaque page, le problème est identique, risque que les moteurs
récupèrent la partie navigation comme réel contenu de la page pour les
pages à faible contenu, duplicate content. Souvent utilisé par exemple par
les sites de petites annonces.
On distingue les liens internes (provenant du même
site) des liens externes provenant de sites extérieurs. Les deuxièmes sont les
plus intéressants, même si Google commence à comprendre la stratégie
utilisée par certains référenceurs: achat de liens de sites de PR élevé,
inscription dans les annuaires, ...
- (+) Utilisation du format : <a
href="http://www.mon-site.com/page.htm">mots
clés</a>: Google préconise déjà l'adresse absolue, tant
pour les liens internes qu'externes.
- (~) Texte de la balise ALT des images qui
envoient le lien: sans être négatif, un lien est un lien,
Google ne semble plus trop tenir compte des mots de remplacement, surtout
s'ils sont plutôt nombreux.
- (+) liens
directement dans le contenu (texte): les liens repris au milieu
du texte sont nettement mieux vus que les liens de type footer utilisés
dans les échanges (partenariat), surtout si ce sont uniquement des listes
de liens. Par contre, trop de liens internes va automatiquement déclasser
la page. Par expérience depuis Pinguin, mieux vaut laisser le texte dans le
contenu et mettre les liens en fin de contenu comme renseignements
complémentaires.
- (+) liens
externes vers des pages internes: les annuaires permettent
généralement uniquement un lien vers la page d'accueil du site. Google
privilégie nettement les liens externes vers des pages internes, jugés
plus naturels.
- (-) répétition systématique de la même phrase
(mot) dans les liens: L'algorithme le
détecte comme un essais de passer en force et pénalise la page qui reçoit
les liens. C'est valable pour les inscriptions dans les
annuaires (principalement avec l'utilisation de logiciels automatiques).
- (~) Page Rang de la page qui envoie le lien:
le PR qui est affiché n'est probablement plus celui utilisé par le moteur.
En décembre 2007, Google a sanctionné par une baisse importante du PR des
pages soupçonnées de vendre des liens ou considérée comme "trop cadeau"
pour la page qui les recevait. Ces mêmes sanctions ont été appliquées à
des pages ne reprenant finalement que des liens. Dans certains cas, les
pages d'envoi sont passées directement en grisées (plus reprises dans les
résultats, ni dans le cache).
- (+) faible nombre de liens envoyé par la page:
comme mentionné plus haut, trop de liens sur une page qui envoi la
défavorise. Forcément, la page qui les reçoit est mieux aidée. Mais
c'est une règle plus ou moins préférée par Google, une page ne contenant
que 20 liens et un peu de texte pour meubler sera pénalisée (y compris les
liens), une page de 300 liens (et plus) peut être bien vue par sans
problème si elle est pertinente, du texte entourant ces liens est
préférable.
- (~) nombre de liens élevés vers la page:
la mode était de recevoir le maximum de liens (si possible externes, ils
sont privilégiés). Ceci a conduit les inscriptions massives dans les
annuaires. Actuellement, le moteur commence à faire la distinction
entre les liens fait pas les visiteurs et ceux fait par référencement.
Mieux vaut une inscription sur 5 bons annuaires que dans 30 (y compris avec
les 5 bons dedans).
- (~) évolution progressive du nombre de liens:
une augmentation massive du nombre de liens vers une page provoque
généralement un déclassement temporaire pour la page. Les nouveaux sites
subissent également avec cette technique la sandbox.
- (-) utilisation du javascript, redirection:
technique utilisée par certains annuaires pour masquer le lien au niveau
des moteurs de recherche et pas suivie par les moteurs.
- (-) Ferme de liens:
inscription dans les annuaires automatiques avec lien de retour obligatoire.
D'autres techniques d'inscription automatiques (même sans lien de retour)
ont également fait subir un déclassement des pages qui envoyaient les liens
en décembre 2007.
- (-) attribut rel="nofollow":
cet attribut dans le lien demande aux moteurs de ne pas tenir compte du lien
et privilégie la page qui envoie le "faux liens" vers la page sur
la requête. Par contre, pour celui qui crée le lien ça permet parfois de ne
pas être pénalisé si la page (le site) qui reçoit le lien est
pénalisée par Google.
- Plusieurs liens vers une page à partir d'une
page: Google ne tient compte que du premier lien (s'il est en
nofollow, les suivants ne sont pas non plus utilisés). Le premier texte (ou
ALT pour une image) doit contenir les mots clés de la page qui reçoit ce
lien. C'est notamment le cas pour la page d'accueil.
- Sites liés: on dit que deux (ou plus)
sont liés lorsqu'ils se font des liens entre eux. La méthode utilisée
pour les liens peut ou non pénaliser le site qui envoi et celui qui reçoit.
Les liens répétitifs en pied de page sont peu pris en compte, et sont
probablement une des sources de déclassement à partir de Pinguin
lorsqu'ils sont externes. Les liens entre pages internes dans le contenu (texte)
sont intéressants à faible dose, dans le cas inverse ces liens sont
pénalisants. En
complément ...
Ceci est finalement un gros résumé des méthodes
d'indexation actuelles. Si elles ne garantissent pas forcément la première
place sur des requêtes importantes, elles permettent au moins d'être visible
dans les recherches, voire nettement mieux positionnées. La méthode actuelle
préconisée par Google semble le "référencement naturel". Toutes
les techniques farfelues ou abusives sont à mettre de coté, y compris celles
qu'ont lit parfois sur des forums spécialisés.
Le niveau suivant fait plutôt appel à l'expérience,
équilibrer les différentes techniques pour positionner les pages, un peu comme
dans une recette de cuisine, suffisamment, mais pas trop. Par exemple,
l'utilisation massive des liens reprenant les mots clés, couplés à une forte
proportion du mots dans la page est vu souvent comme de la sur-optimalisation,
alors qu'une seule des 2 technique peut passer sans problèmes. C'est plutôt
une affaire de spécialistes
du référencement. Vous pouvez également lire sur ce site les raisons (ou les non
raisons) des sanctions de
Google entre octobre 2007 et août 2008.
Mise en ligne: 10/02/2008 - Dernière mise à jour:
08/10/2015
