Google, Double Content und die .htaccess

Wenn man in für Suchmaschinenarbeit interessanten Foren stöbert, stolpert man immer wieder über den Begriff des „Double Content“ und wie schädlich dieser doch sei.

Kurz und ganz grob handelt es sich dabei um eine Seite im Net, die identisch unter zwei Adressen abrufbar ist.
Oder im zweiten anzunehmenden Fall um eine Seite, die die Inhalte einer anderen Seite quasi 1:1 übernimmt und damit eine klassische Doublette darstellt.

Ich möchte heute kurz im Grundsätzlichen auf dieses Problem eingehen und einfache Strategien zur Vermeidung einer eventuellen Abstufung der eigenen Position in den Google-Suchergebnissen durch Double Content aufzeigen.

Mit www oder ohne www?

Früher wurde von den meisten Webhostern damit geworben, das ein Domainname „auch ohne www“ erreichbar ist.
Wenn also ein Besucher in seinen Webbrowser http://wunschdomainname.de eingetippt hatte, wurde die Domain genau so angezeigt als wenn das typische www davorgehängt wurde.

Diese Art des Aufrufes ist etwas in Verruf gekommen. Denn zumindest aus der Sicht der Suchmaschinen stellt http://plusweb.ch und http://www.plusweb.ch nicht dasselbe dar, sondern repräsentiert zwei verschiedene Webseiten.
Das führt dazu, das z.B. Google angeblich nicht weiss, welche Seite dargestellt werden soll und als Konsequenz eine Seite entfernt und die „andere“ Seite abwertet.

Diesen Effekt konnte ich bislang nicht eindeutig verifizieren.
Google ist meiner Erfahrung nach „schlau“ genug, zu erkennen, welche der Adressen von anderen Seiten im Internet verstärkt verlinkt wird. Diese Adresse wird in den Suchergebnissen ohne Einbusse an der Listenpositon dargestellt und die andere halt gar nicht.
Jedes andere Verhalten wäre auch schlicht unsinnig, da das von mir beschriebene „mit und ohne www“-Verfahren bei den meisten Webseiten im Netz problemlos funktioniert. Ein solch geringer Formalfehler ist auch über simple Algorythmen zu kompensieren, eine Unterlassung wäre auch aus Sicht der Benutzer fahrlässig.

Problematischer wird das Ganze, wenn mehrere Domainnamen ins Spiel kommen.
Bei vielen Internetseiten kommen aber noch mehrere Domainnamen zum Einsatz, die auf das selbe Angebot verweisen.
Sei es um Vertipper zu korrigieren (–> http://www.starto.de/ ), Mitbewerber aus dem eigenen Namensraum fernzuhalten oder schlicht um mehr Besucher über sog. „Type-Ins“, also Spontanbesucher, zu erhalten.

Dann sieht das Ganze aus Suchmaschinensicht ein wenig komplexer aus, besonders wenn vielleicht sogar noch alte Domains mit eigener Verlinkung im Laufe der Zeit hinzugekauft wurden.
Im schlimmsten Fall kann das dann sogar ganz zur Verbannung aus dem Suchindex führen. Für viele gleichbedeutend mit der Beendigung der (virtuellen) Existenz.

Das Starto-Beispiel von mir weiter oben zeigt übrigens, das Google auch damit gut umgehen kann. Wenn Google will.
Je grösser eine Seite und je bekannter ein Angebot, desto höher scheint die Bereitschaft dafür zu sein, ein Auge zu zu drücken …

Soll man jetzt also darauf verzichten und nur einen einzigen Domainnamen auf sein Projekt verweisen lassen?
Natürlich nicht, denn die Technik bietet hierfür elegante Lösungsansätze.

Auf die Möglichkeit einzelne Unterseiten eines Projektes als „Domainstartseiten“ zu verwenden oder sogenannte „Brückenseiten“ zu schalten gehe ich in diesem Artikel bewusst nicht ein.

Die meisten Apache-Webserver bieten die Möglichkeit, das sogenannte Rewrite-Modul zu nutzen, das wir hier zur Lösung dieses Problemes zum Einsatz bringen.

Ganz einfach gesagt, kann man mittels mod_rewrite dem Webserver sagen, Anfragen von Usern an den Webserver umzuformulieren.
Ein verbreiteter Einsatz ist es zum Beispiel dynamische Abfragen an eine Datenbank so aussehen zu lassen, als ob es statische HTML-Dokumente sind. Aber dazu ein anderes mal mehr.

Wir möchten also mittels Apache-Webserver und mod_rewrite sicherstellen, das egal wie unsere Webseite aufgerufen wird, immer unser „Hauptdomainname“ angezeigt wird.

Dazu legen Wir einfach im Stammverzeichnis unseres Webspace (da wo die index.html liegt) die Datei .htaccess an (oder, falls schon vorhanden, öffnen wie diese in einem Texteditor).

In diese Datei schreiben wir ganz oben:

RewriteEngine On
RewriteBase /
RewriteCond %{HTTP_HOST} !^www\.wunschdomainname\.de$
RewriteRule ^(.*)$ http://www.wunschdomainname.de/$1 [L,R=301]

Natürlich müssen Sie noch den Term wunschdomainname.de auf Ihren Stammdomainnamen ändern.
Achten Sie besonders auf die Zeile 3: Die Backslashes vor den jeweiligen Punkten sind wichtig und auch die Dollarzeichen etc. müssen genau so übernommen werden.

Was passiert dann?

Der Webserver schaut, ob ein Aufruf Ihrer Webseite über den Namen www.wunschdomainname.de erfolgte.
Falls das nicht der Fall ist, teil der Server dem Aufrufendem Programm (Ihr Browser oder aber halt auch Google) mit, dass Ihr Inhalt jetzt dauerhaft (R=301) auf einer anderen Adresse zu finden ist und wie diese Adresse lautet.

Das funktioniert Vollautomatisch und völlig transparent. Auch Aufrufe einzelner Dokumente werden so umgesetzt, das keine Fehler auftreten.

Probieren Sie es doch einfach mal aus.

Viel Schwieriger ist die Lage bei kopiertem (geklauten) Content.

Ein besonderes Ärgerniss stellen derzeit die sogenannten „Proxy“-Dienste im Internet dar, die den Benutzern ein anonymes Surfen ermöglichen sollen.

Ohne in die Tiefe gehen zu wollen, spiegeln diese Dienste Ihre Webseite komplett und stellen diese unter einer anderen Adresse dar.
Das wiederum führt zu doppeltem Content und -wenn Ihre Seite nicht sonderlich „stark“ ist – dazu, das Google die Proxy-Seite als „Original“ wertet und Ihre Seite aus dem Suchindex entfernt.

Auch hier kann man sich mittels einer .htacess Datei schützen. Diese allerdings täglich auf dem neuesten Stand zu halten ist aufwändig und nervig. Zum Glück gibt es Dienste wie http://www.proxy-sperre.de/ die diese lästige Tätigkeit automatisieren.

Bleibt zum Schluss (?) noch die banale Content-Kopie.

Können Sie sich vorstellen, das Sie einen Text verfassen, jemand anderes den einfach kopiert auf seine Webseite stellt und dann zum Schluss bei Google mit Ihren Texten weit über Ihnen gelistet wird und Umsatz macht?

So etwas passiert leider jeden Tag. Es ist ja auch einfacher, andere zu kopieren als sich selbst Gedanken zu machen.

Falls Sie Inhalte produzieren, die Schützenswert sind, empfehlen wir Ihnen, sich mit Diensten wie http://www.copyscape.com/ vertraut zu machen, die Ihnen zumindest das Aufspüren von Kopien erleichtern.

Im Falle eines Falles hilft dann nur noch ein Mail an den Webseitenbetreiber der Seite, der Ihre Inhalte übernommen hat und ein Mail an das QA-Team von Google, das über die Webmaster-Tools eingereicht werden kann.
Wenn der Plagiator seinen Sitz in Ihrem Land hat, kann auch dieDrohung mit dem Rechtsweg etwas bringen.

Eine automatisierte Lösung für dieses Problem ist mir leider nicht bekannt.

Ich hoffe Ihnen heute einen Einblick in eine bei Vielen nicht bekannte Problematik gegeben zu haben. Eine Problematik, die aber trotzdem viele Webseiten betrifft. Vielleicht können ja auch Sie durch ganz einfache Massnahmen mittelfristig mehr Besucher über Google erreichen?

Kommentare

2 Antworten zu „Google, Double Content und die .htaccess“

Volker

6. November 2008

guter und hilfreicher artikel, danke
Reinhard Zwerger

10. November 2009

Vielen Dank für diese sehr guten und hilfreichen Infos!

Schreibe einen Kommentar

Diese Seite verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden..

Google, Double Content und die .htaccess

Weitersagen:

Kommentare

2 Antworten zu „Google, Double Content und die .htaccess“

Schreibe einen Kommentar