Domare l’ira di Google e uscire fuori dalla penalizzazione per contenuti duplicati

Non molto tempo fa Enrico mi scrive in privato per chiedermi consiglio (Grazie, apprezzo quando qualcuno lo fa, perchè in un certo senso vuol dire riconoscere la professionalità e l’esperienza).
Ban contenuti duplicati
La richiesta non era facilissima, doveva posizionare un sito con il menù in Flash sui motori di ricerca, con alcune antipatiche aggravanti. La prima era che il sito era hostato su un Server Windows, che come sappiamo non è case sensitive, la seconda avere files e cartelle nominati con un mix di maiuscole e minuscole, e la terza che era stata generata dall’incauto backlink (interno ed esterno) con varianti multiple del mix accennato.

A questo punto il disastro: Google aveva visto coppie, triplette, in un caso addirittura quaduple della stessa pagina, il ban per contenuti duplicati era inevitabile e tanto è stato.

Enrico aveva scoperto già tutto da solo, ovvero sapeva che il suo sito era stato penalizzato per contenuti duplicati perchè la ditta che aveva operato in precedenza aveva rinominato una cartella arbitrariamente, per fare cosa non si sà bene cosa. Purtroppo, senza adottare appositi accorgimenti, questa rinomina aveva portato Google a vedere tutto “doppio”.

Enrico sapeva in parte come uscirne, ma ha preferito confrontarsi con me (cosa che male non mi ha fatto).

Come ho detto, il sito in questione girava su un server Windows 2003 con IIS 6, che di default non ha alcun componente per l’URL rewriting. A questo va inoltre aggiunto che – nel bene o nel male – Windows non fa alcuna differenza tra maiuscolo o minuscolo. La cartella che esisteva prima quindi, tal “CNC”, rinominata poi in “cnc” era per Windows la stessa cosa, ma per il World Wide Web tutt’altra faccenda. E proprio perchè il sito era hostato su un server Windows, non si poteva far ricorso nemmeno al redirect 301 a disposizione di IIS 6 perchè di fatto sorgente e destinazione combaciavano.

Il primo suggerimento che ho potuto dare è stato quello di pensare all’acquisto di un componente per l’URL rewriting per Windows. Ce ne sono diversi in commercio, ma questa soluzione non era praticabile.
Contemporaneamente avevo suggerito di rimuovere e/o rinominare in tutto il sito eventuali riferimenti alla vecchia cartella e cambiarli con il nuovo nome, operazione che peraltro era già stata fatta. Idem verificare e cercare di ottenere la correzione dei backlink esterni.

Rimaneva una sola alternativa, sulla quale sia io che Enrico nutrivamo un dubbio, ovvero il fatto che trattasse le regole in modalità sensitive. Qualche veloce ricerca, io sul sito del protocollo, ed Enrico mediante il webmaster tools, e siamo giunti alla conclusione che bloccare la vecchia cartella (tramite il robots.txt) in maiuscolo avrebbe comunicato a Google che l’aver rinominato la cartella era stato un errore piuttosto che un tentativo di fregare il suo crawler.

Di li a qualche giorno il sito, stante a quando Enrico mi ha detto, è stato depenalizzato e ora, con qualche rara eccezione, le pagine sono di nuovo tutte in SERP.

4 thoughts on “Domare l’ira di Google e uscire fuori dalla penalizzazione per contenuti duplicati”

  1. Ciao e grazie per aver condiviso le vostre esperienze!
    Una domanda: perché non avete considerato l’idea di usare il metatag canonical?

    1. Ciao Davide,
      grazie per il tuo commento e per essere passato da queste parti.

      Il canonical tag poteva essere una alternativa, ma dato un ordine di importanza tra robots.txt e canonical tag, il primo ha maggiore rilevanza, di il mio suggerimento.

  2. Mi sembra assurdo che google sia così stupido da intendere due pagine differenti, dal contenuto identico che differiscano solamente dal nome case-sensitive, soprattutto perché i contenuti sono uguali al 100%, non si tratta di un plagio, o altro

    Uno di Google dice che temporaneamente li vedono separati, ma poi li vedono come la solita pagina

    http://groups.google.com/group/google_webmaster_help-indexing/msg/83d9d7fdcc061d3c

    Altrimenti un competitor potrebbe spammare il web con milioni di varianti pagina.html Pagina.html PAgina.html PAGina.html e penalizzarti
    Oppure che fai, chiedi per favore ai visitatori di stare attenti a pubblicare il link con la giusta capitalizzazione?

    E chi si dimentica di mettere il www? Tecnicamente www. dominio. it e dominio.it possono essere due siti diversi…

    E poi da un punto di vista userfriendly, il case-sensitive sul web è assolutamente da evitare, da rimuovere assolutamente anche su apache. Chi inserisce un URL a mano, al 99% ignorerà totalmente la capitalizzazione originale, ritrovandosi con un bel 404, che magari è implementato male e fa il redirect su dominio/pagina_non_trovata – a tal punto l’utente non ha la possibilità di correggere l’errore, e se ne va.

    1. Ciao Dandandin,

      credo tu abbia frainteso. Il problema era esattamente l’opposto, la pagina prima /CNC/index.html, rinominandola in /cnc/index.html era la stessa. Solo che per il WWW il case sensitive fa una enorme differenza, e questa cosa ha portato alla creazione – agli occhi di G – di due risorse completamente diverse con il medesimo contenuto. Di li la penalizzazione.

Comments are closed.