Zur Navigation

doppelter Content innerhalb der Domain

1 christa

hallo Jörg&Co.

wie begegnet man dem Problem des doppelten Contents (DC) innerhalb einer Domain?

Die physischen Links sehen so aus:

immunitaet.php?kat=viren&page=1 (.......30)

es gibt also ungefähr 30 Seiten der Kategorie "viren", diese stellen eine größere Teilmenge der gesamten immunitaet.php dar.

Dazu meine Frage: wenn der Link immunitaet.php?kat=&page=1 nirgends physisch auf der Seite besteht, wird er dann von den Sumas selber gebildet über immunitaet.php, durch Weglassen von ?kat=viren&page=1 oder kann man das getrost ausschließen?

Warum diese Frage? Weil immunitaet.php?kat=viren&page=1 der Stammseite immunitaet.php?kat=&page=1 sehr ähnlich ist, da die Kategorie "viren" ca. 80% der Gesamtheit aller Kategorien entspricht und damit Teil-DC entstünde, sofern der Link von den Sumas selber gebildet würde.

Wäre dies der Fall, käme anschließend die Frage wie man die Seiten schützen muss.per robots.txt oder .htaccess?

hui das ist aber schwierig zu erklären...hoffe es wird trotzdem verstanden.

Christa


24.03.2013 11:08

2 Horst_M

Weder noch, mit der robots.txt ist das ein sehr weit verbreiteter Irrtum, dass die Seiten dann nie indiziert werden. Findet der Crawler einen externen Link zur Seite seite.php?kat=& page=1, so wird er diese URL auch irgendwann aufrufen, ohne die robots.txt zu kennen. Erst beim nächsten Besuch wird dann die robots.txt mit ausgewertet.
Wurde die Seite dann aber durch die robots.txt ausgeschlossen, besucht der diese Seite nicht. Das Ergebnis sind dann bei einer Seitenabfrage die letzten Ergebnisse, die nur unter ihrer URL in der Liste erscheinen, bevor sie wieder nach einer unbestimmten Zeit aus dem Index entfernt werden.

Wenn Du es richtig machen möchtest, dann benutze den Meta-Tag robots in den Seiten, denn über diesen stolpert der Bot auch dann, wenn die Seite von extern verlinkt wurde.

Wobei interner DC allgemein wesentlich weniger problematisch betrachtet wird, als externer. Nach Deiner Beschreibung würde ich Dir nichts raten, da ich nicht viel verstanden habe.

Edit: Was ich zwar selbst nicht benutze, eventuell für Deine Belange jedoch ausgesprochen gut sein könnte, ist der Canonical-Tag, denn der wurde für vergleichbare Probleme eingeführt. Fügst Du in den Head der Seiten ein, die vom Content her weitestgehend der immunitaet.php entsprechen, falls die immunitaet.php Deine bevorzugte Seite sein soll:

<link rel="canonical" href="http://www.example.com/verzeichnis/immunitaet.php" />

Lese Dir aber vorher noch einmal selbst so einiges durch, was über diesen Tag geschrieben wird.


24.03.2013 12:26 | geändert: 24.03.2013 12:50

3 christa

Zitat von Horst_M

Nach Deiner Beschreibung würde ich Dir nichts raten, da ich nicht viel verstanden habe.
fast vermutet :), aber es ist nicht ganz einfach zu erklären.

Die Frage war eigentlich, ob Google Links selber modifiziert um so an weitere Seiten zu gelangen. Also den Link immunitaet.php?kat=&page=1
zusätzlich selber abändert in immunitaet.php?

Zitat von Horst_M


Edit: Was ich zwar selbst nicht benutze, eventuell für Deine Belange jedoch ausgesprochen gut sein könnte, ist der Canonical-Tag, denn der wurde für vergleichbare Probleme eingeführt.

weder der Meta-Tag robots noch der Canonical-Tag kommen in Frage, weil damit alle Kategorien unter immunitaet.php? betroffen wären, auch die der Kategorie immunitaet.php?kat=viren&page=1, denn die TAGs kämen ja auf die Seite immunität.php zu liegen.

Es wird also schwierig werden. Was bleibt ist die Hoffnung, eine 70-80% Übereinstimmung, werde nicht als DC gewertet.

by the way: Was passiert eigentlich mit den Seiten die doppelt gewertet werden? Fliegen diese aus dem Index oder nur die Hälfte oder werden beide Paare abgewertet oder kommt die Polizei vorbei?




24.03.2013 13:22

4 Horst_M

Zitat von christa
weder der Meta-Tag robots noch der Canonical-Tag kommen in Frage, weil damit alle Kategorien unter immunitaet.php? betroffen wären, auch die der Kategorie immunitaet.php?kat=viren&page=1, denn die TAGs kämen ja auf die Seite immunität.php zu liegen.

Das ließe sich genau steuern, bei welcher Seite was und was nicht ausgegeben werden soll. Bei meinen Seiten handhabe ich das nach diesem Schema, soll heißen, es wird nicht an Hand des Namens der Datei entschieden, sondern an Hand der übergebenen Parameter und Werte, was auf noindex oder index soll oder einen zusätzlichen Tag erhalten sollte, wenn es denn von Vorteil ist:

<?php
if (isset($_GET["Page"]) and $_GET["Page"] == 1){$robots = "noindex,follow";}
else {$robots = "index,follow";}
?>

<meta name="robots" content="<?php echo $robots; ?>">

Zitat von christa
Was bleibt ist die Hoffnung, eine 70-80% Übereinstimmung, werde nicht als DC gewertet.

Wenn es nicht mehr ist als einige wenige Seiten betrifft, würde ich mir darüber keine größeren Gedanken machen. Wichtig ist ja nur die Masse an Seiten, dass die sich nicht alle vom Content her besehen zu sehr gleichen. Es gibt sehr viele bestehende Seiten, die zum Beispiel von jeder Seite noch eine Druckversion haben, und das schon bevor es einen Canonical-Tag gab, wüsste nicht, dass da mal etwas passiert ist.

24.03.2013 13:43 | geändert: 24.03.2013 14:02

5 christa

@Horst_M

es sind ca. 10% aller Seiten, mit vielleicht je nach Seite, zwischen 50-80% Übereinstimmung. Die Druckversionen sind mit Meta no-index beschickt. Werde es einfach mal wagen ohne was zu unternehmen. Auf jeden Fall habe ich wieder was gelernt, danke Horst.

LG

24.03.2013 15:21

Beitrag schreiben (als Gast)





[BBCode-Hilfe]