Notre magasin

YBET Informatique

Rue Albert 1er, 7

B-6810 Pin - Chiny

Septembre 2008 dans la catégorie Internet

Gamme CIEL compta 

Gérer votre compta, factures, stocks, clients et fournisseurs en 1 tour de main Logiciels CIEL

Le site YBET L'actualité Internet Le forum Quelques exemples de prix au magasin
Quelques prix au magasin
Portable 17,3 - I3-6006U, 1T, 8GB
ACER-E5-774-357

Prix TTC: 724.05 €
Multifonction MG3051
CANON PIXMA MG3051

Prix TTC: 53.88 €
Disque dur externe Seagate Goflex Freeagent 1TB, logiciel sauvegarde synchronisation
SEAGATE 1TB GOFLEX EXTERN

Prix TTC: 101.75 €
Tour Extensa M2610 I5-4460, 500 GB, 4GB, 7Pro/8Pro
ACER EXTENSA M2610 I5-446

Prix TTC: 627.76 €
Mémoire SDHC Kingston 4 GB classe 2
KINGSTON 4 GB SD HC

Prix TTC: 11.06 €
Le référencement expliqué
Le positionnement sur Google, généralités et outils
Techniques actuelles pour Google, structure, contenu, ...
Webmaster
HTML (FrontPage, bases)
Programmation en PHP - MySQL
Des visiteurs pour un site, le référencement

Les news et dossiers YBET sur l'informatique. le 15-09-2008, dans la partie Internet

Nous sommes début et fin juin 2008 et beaucoup de sites passent de quelques milliers de visiteurs à quelques ... centaines du jour au lendemain. J'ai d'abord commencé par en examiner quelques uns au niveau structure de site (partie navigation trop importante par rapport au contenu) et effectivement beaucoup d'annuaires ont cette méthode de référencement, une navigation imposante en se disant que mettre beaucoup de liens, c'est monter sur beaucoup de requêtes. Et devinez, de nouveau des pages internes grisées. En pratique, la sanction pour dupplicate donne ça en nombre de visiteurs ...

Pourtant, beaucoup de sites touchés n'avaient pas le problème de structure ... C'est Carole Heinz, membre du forum Webrankinfo qui a finalement donné le problème (ou plutôt trouvé une raison): le duplicate.

Bienvenu dans la détection du contenu copié. J'ai repris deux de mes sites pour refaire mes petits tests.

1. Le duplicate dans les annuaires, c'est les inscriptions qui posent le problème ...

J'ai commencé par l'annuaire de darut.eu. Effectivement, toutes les pages grisées ont ce problème de description dupliquée dans d'autres annuaires. Je sais les logiciels de soumission automatique, c'est facile, rapide et ça eut payé (mais maintenant ça paye plus vraiment).

La technique employée est simple, on reprend une partie de la description de chaque site et fait la recherche sur Google. Tout le monde sait que mettre un texte entre "recherche" est une demande de n'afficher que les résultat reprenant la phrase telle quelle. Pour la recherche du duplicate, vous devez respecter plusieurs petits trucs comme supprimer les caractères de liaisons et ponctuations en début et en fin de phrase. des résultats? Oui, mais pas forcément ce qu'on pourrait s'attendre. Dans la majorité des cas, pas de résultats trouvés en utilisant les guillemets (réponse de Google), dans d'autres, seuls quelques sites sont repris, les autres sont en:


Pour limiter les résultats ... en incluant les pages ignorées.

Et oui, Google en reprend quelques uns et supprime les autres de la recherche ... et la majorité sont de nouveaux grisées (même parfois celles affichées). Déjà on retrouve souvent les mêmes annuaires dans celles affichées, tout au plus une dizaine, y compris des sites également sanctionnés.

Deux solutions, soit le moteur reprend la (les) premières pages qu'il a trouvé (classement par date de détection), soit il reprend les sites suivant un certain "niveau de confiance". Difficile à dire mais de toute façon, même le annuaires affichés ont été sanctionnés en visiteurs fin juin.

Le résultat est souvent effarant, le record est de 2090 soumissions identiques pour un seul site dans mes tests. Le résultat est aussi spectaculaire (ou navrant), la page en duplicate passe en grisée (parfois garde son Pagerank mais n'est plus repris dans les résultats), elle n'envoit plus de liens vers les sites inscrits et en plus n'est plus reprise dans les recherches. Ce sont souvent des milliers de pages internes qui ont disparues d'un coup.

En même temps, Google s'en est prit aux flux RSS, une méthode facile pour se procurer du contenu sans trop se fatiguer, mais aussi du duplicate content ... C'est probablement le cas de dicodunet, en rouge sur le graphique.

2. Et le contenu copié ...

Il y a seulement trois ans, piquer un article sur un site pour le mettre sur le sien posait finalement peu de problèmes, changer le titre et la description suffisait pour être aussi repris dans les résultats. Je suis plutôt bien placé pour le savoir, ybet.be est copié à gauche et à droite en long et en large. Depuis Google a amélioré ses outils et mai - juin mis la nouvelle version en place. C'est là le problème de beaucoup de sites, le copié ... Cette fois, j'ai fait un tour sur les définitions de materiel-informatique.be qui étaient grisées.

  • Première chose, un morceau de phrase suffit, finit de mettre des paragraphes pour se faire détecter ...
  • Le truc pour détecter la partie que Google conçoit comme de la copie est simple, reprenez une partie du début en recherche entre ", si votre page est affichée dans les résultats c'est pas encore là. Par contre, si une partie en-dessous n'affiche pas votre site dans les recherches, la partie dupliquée est soit directement là ou au-dessus. Ca va déjà faciliter la recherche de contenu dupliqué.
  • En troisième, quelques exemples de duplicate:
    - "toujours prise en compte à la fin de l'instruction en cours" dans un texte de plus ou moins 1000 mots en interne
    -.... "et surtout moins gourmands en énergie" et les articles n'ont strictement rien entre eux, informatique processeurs, disques SSD ou même avions ...
    -... "et le four banal remontant au XVe s., actuellement restauré".

Ne cherchez pas les pages qui ont été testées, chaque propriétaire à modifié son contenu ... (du moins ceux qui ont participé aux tests). Bref, quand on imagine que ce sont ces petits morceaux de phrases qui entraînent le duplicate content, ... même si généralement c'est plus important

3. Quelle page passe comme copieur et copiée.

Là aussi, ça peut être difficile à dire. Dans la partie annuaire, j'ai parlé de "sites de confiance" pour les sites repris dans les résultats, mais c'est plus complexe. Plusieurs solutions de copie sont possibles:

  1. la page est ancienne est largement reprise dans Google, une copie complète de la page ou quelques parties.
  2. La page est neuve et une partie est copiée presque immédiatement
  3. les deux pages sont vues en même temps, mais un des site est plus important (lisez plus gros, plus de confiance, PR plus élevé ...)

Dans le premier cas, la page du copieur est reprise quelques jours dans les recherches, éventuellement l'autre page si elle n'est pas non plus en duplicate. Au bout de quelques jours, la page qui copie n'est plus reprise dans les résultats, ni dans le cache de Google, parfois elle fluctue quelques jours (disparaît et revient). Pas la peine de copier des anciennes pages en espérant "couler" un concurrent ...

Deux pages neuves avec le même contenu publiées presque immédiatement, là c'est plus méchant, les deux pages sont grisées et inaccessibles (y compris pour l'original): même une petite copie sur un forum de troisième zone fait basculer votre page. Ce problème intervient dans les sites utilisant des flux RSS. Google n'a pas déclassé les sites qui les utilisent mais finalement une partie des pages (original comme reprenant l'article).Cette partie a déjà mis au tapis un site de tests d'auto belge, repris quasiment immédiatement par les autres sites qui parlent du sujet, mais aussi quelques définitions de materiel-informatique.be.

La dernière solution est plus spécifique puisqu'elle met en oeuvre deux sites (ou plus) dont un gros. Si la "petite page est déjà présente depuis longtemps (quelques semaines, voire jours), on se retrouve dans le même cas de figure que la première condition. Des tests ont été fait ici. Par contre, en cas de simultanéité, c'est souvent le gros qui passe, même si la page originale est connue quelques heures avant. Les parties news reprises (copiées) par des journaux sur leur site sont dans cette catégorie.

4. Page en duplicate modifiée: reclassement immédiat dans le positionnement?

Je ne m'intéresse pas ici qui est le copieur, mais bien une des pages avec un contenu duplicate est modifiée (complètement, pas des petites parties ...). Ca fait aussi partie des tests qui ont été réalisés ces dernières semaines. Sur le petit annuaire (mais il n'est pas complètement repris dans la nouvelle version), pas de modification dans les statistiques visiteurs, sur un annuaire plus gros de L-Jee (vous pouvez visiter son site Costaud.net, ce n'est pas le site utilisés pour ses tests) ça semble fonctionner même l'annuaire n'est pas encore revenu aux statistiques visiteurs d'avant.

Par contre, sur les définitions du dictionnaire informatique, la majorités des définitions modifiées sont revenues se positionner en mondial, parfois même reprendre la première place.

Aucune page laissée telle quelle n'est repassée dans les résultats, attendre ne change rien.


Mais Google nous surprendra encore, non seulement, il propose des aides aux Webmasters pour positionner leur site, mais en plus, il est devenu maître d'école. Calculer le nombre de liens (quelque soit le PR), c'est dépassé. Maintenant, il y a les parties "savoir lire les dates" et apprendre l'orthographe et la conjugaison. Ca c'est la suite .... (Pour la nouvelle méthode de l'enseignement selon Google, suivez le lien juste en dessous)

<<< Pénalités de Google, les liens (15-09-2008) - Les pénalités et sanctions de Google, et en plus ... (17-09-2008) >>>

Proposée le 15-09-2008

Insérer un commentaire sur cet article

Tous les champs sont obligatoires, votre commentaire sera accepté (ou non). Les liens Internet sont d'office désactivés. Merci de faire vos demandes d'aides sur le forum.

Votre Pseudo
Votre adresse mail, non publiée:


Le titre de votre commentaire:

Votre texte:

Les dernières actualités
Lire aussi ...sur Internet
Formation PHP - MySQL