doppelter Content innerhalb der Domain

1 christa

hallo Jörg&Co.

wie begegnet man dem Problem des doppelten Contents (DC) innerhalb einer Domain?

Die physischen Links sehen so aus:

immunitaet.php?kat=viren&page=1 (.......30)

es gibt also ungefähr 30 Seiten der Kategorie "viren", diese stellen eine größere Teilmenge der gesamten immunitaet.php dar.

Dazu meine Frage: wenn der Link immunitaet.php?kat=&page=1 nirgends physisch auf der Seite besteht, wird er dann von den Sumas selber gebildet über immunitaet.php, durch Weglassen von ?kat=viren&page=1 oder kann man das getrost ausschließen?

Warum diese Frage? Weil immunitaet.php?kat=viren&page=1 der Stammseite immunitaet.php?kat=&page=1 sehr ähnlich ist, da die Kategorie "viren" ca. 80% der Gesamtheit aller Kategorien entspricht und damit Teil-DC entstünde, sofern der Link von den Sumas selber gebildet würde.

Wäre dies der Fall, käme anschließend die Frage wie man die Seiten schützen muss.per robots.txt oder .htaccess?

hui das ist aber schwierig zu erklären...hoffe es wird trotzdem verstanden.

Christa

2 Horst_M

Weder noch, mit der robots.txt ist das ein sehr weit verbreiteter Irrtum, dass die Seiten dann nie indiziert werden. Findet der Crawler einen externen Link zur Seite seite.php?kat=& page=1, so wird er diese URL auch irgendwann aufrufen, ohne die robots.txt zu kennen. Erst beim nächsten Besuch wird dann die robots.txt mit ausgewertet.
Wurde die Seite dann aber durch die robots.txt ausgeschlossen, besucht der diese Seite nicht. Das Ergebnis sind dann bei einer Seitenabfrage die letzten Ergebnisse, die nur unter ihrer URL in der Liste erscheinen, bevor sie wieder nach einer unbestimmten Zeit aus dem Index entfernt werden.

Wenn Du es richtig machen möchtest, dann benutze den Meta-Tag robots in den Seiten, denn über diesen stolpert der Bot auch dann, wenn die Seite von extern verlinkt wurde.

Wobei interner DC allgemein wesentlich weniger problematisch betrachtet wird, als externer. Nach Deiner Beschreibung würde ich Dir nichts raten, da ich nicht viel verstanden habe.

Edit: Was ich zwar selbst nicht benutze, eventuell für Deine Belange jedoch ausgesprochen gut sein könnte, ist der Canonical-Tag, denn der wurde für vergleichbare Probleme eingeführt. Fügst Du in den Head der Seiten ein, die vom Content her weitestgehend der immunitaet.php entsprechen, falls die immunitaet.php Deine bevorzugte Seite sein soll:

<link rel="canonical" href="http://www.example.com/verzeichnis/immunitaet.php" />

Lese Dir aber vorher noch einmal selbst so einiges durch, was über diesen Tag geschrieben wird.

3 christa

Zitat von Horst_M

Nach Deiner Beschreibung würde ich Dir nichts raten, da ich nicht viel verstanden habe.

fast vermutet :), aber es ist nicht ganz einfach zu erklären.

Die Frage war eigentlich, ob Google Links selber modifiziert um so an weitere Seiten zu gelangen. Also den Link immunitaet.php?kat=&page=1
zusätzlich selber abändert in immunitaet.php?

Zitat von Horst_M

Edit: Was ich zwar selbst nicht benutze, eventuell für Deine Belange jedoch ausgesprochen gut sein könnte, ist der Canonical-Tag, denn der wurde für vergleichbare Probleme eingeführt.

weder der Meta-Tag robots noch der Canonical-Tag kommen in Frage, weil damit alle Kategorien unter immunitaet.php? betroffen wären, auch die der Kategorie immunitaet.php?kat=viren&page=1, denn die TAGs kämen ja auf die Seite immunität.php zu liegen.

Es wird also schwierig werden. Was bleibt ist die Hoffnung, eine 70-80% Übereinstimmung, werde nicht als DC gewertet.

by the way: Was passiert eigentlich mit den Seiten die doppelt gewertet werden? Fliegen diese aus dem Index oder nur die Hälfte oder werden beide Paare abgewertet oder kommt die Polizei vorbei?

4 Horst_M

Zitat von christa

weder der Meta-Tag robots noch der Canonical-Tag kommen in Frage, weil damit alle Kategorien unter immunitaet.php? betroffen wären, auch die der Kategorie immunitaet.php?kat=viren&page=1, denn die TAGs kämen ja auf die Seite immunität.php zu liegen.

Das ließe sich genau steuern, bei welcher Seite was und was nicht ausgegeben werden soll. Bei meinen Seiten handhabe ich das nach diesem Schema, soll heißen, es wird nicht an Hand des Namens der Datei entschieden, sondern an Hand der übergebenen Parameter und Werte, was auf noindex oder index soll oder einen zusätzlichen Tag erhalten sollte, wenn es denn von Vorteil ist:

<?php
if (isset($_GET["Page"]) and $_GET["Page"] == 1){$robots = "noindex,follow";}
else {$robots = "index,follow";}
?>

<meta name="robots" content="<?php echo $robots; ?>">

Zitat von christa

Was bleibt ist die Hoffnung, eine 70-80% Übereinstimmung, werde nicht als DC gewertet.

Wenn es nicht mehr ist als einige wenige Seiten betrifft, würde ich mir darüber keine größeren Gedanken machen. Wichtig ist ja nur die Masse an Seiten, dass die sich nicht alle vom Content her besehen zu sehr gleichen. Es gibt sehr viele bestehende Seiten, die zum Beispiel von jeder Seite noch eine Druckversion haben, und das schon bevor es einen Canonical-Tag gab, wüsste nicht, dass da mal etwas passiert ist.

5 christa

@Horst_M

es sind ca. 10% aller Seiten, mit vielleicht je nach Seite, zwischen 50-80% Übereinstimmung. Die Druckversionen sind mit Meta no-index beschickt. Werde es einfach mal wagen ohne was zu unternehmen. Auf jeden Fall habe ich wieder was gelernt, danke Horst.

LG

nach oben

Beitrag schreiben (als Gast)

Verwandte Themen
Thema	Autor	Forum	Beiträge	Letzter Beitrag
Umleitung je nach Domain auf Startseite oder andere Domain	Morrow	Webserver und .htaccess	11	06.08.2023 12:10
2 Domains: Zweite soll auf erste weiterleiten, aber angezeigt bleiben	Tomsen	Webserver und .htaccess	2	05.01.2017 13:47
Doppelter Content - Bitte Hilfe bei .htaccess	Harry	Webserver und .htaccess	5	01.11.2016 14:59
HTTPS, neue Domain und kürzere URLs	Jörg Kruse	Jörgs Webmaster-Forum	3	16.09.2016 11:36
Weiterleitung Subdomain funktioniert nicht für Unterseiten	Marcus	Webserver und .htaccess	23	13.05.2016 17:53
301 Weiterleitung Domain und Aufhebung Unterverzeichnis	sicont	Webserver und .htaccess	17	15.02.2014 18:05
Domain per mod_rewrite umleiten aber nicht in Adressleite ändern	Chaos234	SEO	2	15.08.2013 09:59

doppelter Content innerhalb der Domain

Beitrag schreiben (als Gast)

Verwandte Themen