Zur Navigation

cache in google per htaccess beschränken

1 fligor

Mein Film Forum ist jetzt schon seit einer knappen Woche online und ich habe das PRoblem des doppel-contents. hatte vorher ein anderes forum laufen, dass ist aber runter und die urls die noch drin sind machen jetzt probleme! Site Abfrage des Forums. Glücklicherweise sind es alles PHP Seiten die den content erzeugen. wie sperre ich die aus dem index? ich hoffe ebenfalls, dass dann endlich die html-seiten des forums aufgenommen werden. Hoffe ihr versteht mein PRoblem. Danke schonmal.

MFG FLo

23.05.2005 10:28 | geändert: 23.05.2005 10:29

2 Jörg Kruse

Hallo FLo

wenn die alten Seiten nirgends mehr verlinkt sind, sollten sie irgendwann aus dem Index fliegen, aber damit lässt sich Google leider manchmal etwas Zeit. Das dumme ist wohl, dass die Seiten keinen Status Code 404 oder besser noch 410 zurückgeben, sondern einfach die Startseite.

Vielleicht kann man mit folgendem Eintrag in der .htaccess (nach dem "RewriteEngine on") das Entfernen aus dem Index beschleunigen:

RewriteCond %{QUERY_STRING} ^action=(.*)$
RewriteRule ^index\.php$ - [G]

das ist ungetestet, und setzt voraus, dass im neuen Forum keine Variable "action" übergeben wird - also ausgiebig prüfen, ob dann noch alles im Forum funktioniert, und ob die alten index.php?action=blabla einen Status Code 410 ("Gone") zuückgeben! (HTTP-Header mit Status Code kann man u.a. hier überprüfen)

23.05.2005 11:27

3 fligor

Jörg! Du hast es wiedereinmal geschafft! Ich danke dir. Ist ein phpbb-ForumWenn du willst, dann sach mal einen Link ich setz dir dann als Belohnung ne Zeit lang, ca. Monat einen Footerlink auf eine URL deiner Wahl.

MFG FLo

23.05.2005 20:02

4 Jörg Kruse

DAnke, ich mail dich dann mal an :)

24.05.2005 09:28

5 fligor

Hi Jörg,
kannst nochmal die site-abfrage machen bitte?
die seiten sind immer noch drin. gibt es da keine möglichkeit die 410 fehlerseite zu editieren und einen permanent redirect hineinzuschreiben? so ist die seite doch dann sicherlich schnell draußen. nur wie geht das nochmal? das war eine .htaccess anweisung, dass die sich eine bestimmte seite nehmen soll oder nicht. kenne diese anweisung nur leider nicht. funktioniert das oder gibts da konflikte? eigentlich soltlen die seiten doch schon längst draußen sein oder?
MFG Flo

26.05.2005 11:20

6 Jörg Kruse

Hallo FLo,

ein 301er ist m.E. nicht schneller als ein 410er, nur die Aussage über den Verbleib der betreffenden Webseiten ist ein anderer. 410 heißt für Google: lösche die Adressen aus dem Index. 301 heißt: ersetze die Adressen durch die Weiterleitungsadresse(n). Bei einer 301 stellt sich die Frage, wohin weitergeleitet wird, sollen alle Seiten beispielsweise auf die Startseite weitergeleitet werden, würde der Eintrag in der .htaccess so aussehen:

RewriteCond %{QUERY_STRING} ^action=(.*)$
RewriteRule ^index\.php$ http://florian.faule-schweine.com/forum/ [R=301,L]

Nur ist die Frage, ob diese Weiterleitung einen Sinn macht, für Google hieße das ja, alle alten Seiten befinden sich jetzt auf der Startseite. Da halte ich einen 410er für sinnvoller.

Was die Dauer des Entfernens der alten Seiten anbelangt: ob nun aufgrund einer 410 oder einer 301 - Google muss erstmal von dem Status Code Kenntnis erlangen, wurden die alten Seiten denn zwischenzeitlich schon gespidert?

26.05.2005 11:52

7 fligor

Glaube schon, es führen aber keine Links mehr drauf und existieren tun sie auch nicht mehr! Lediglich eine Seite wurde unter "schnell geld verdienen" durch komische möchtegern-suchmaschinen verlinkt. Ist das ein Problem? Kann ich eigentlich auch noch was in die robots.txt zusätzlich schreiben oder reicht der .htaccess eintrag?

ich setze einfach mal den link. passieren kann ja nichts großartiges. mal schauen. ich berichte.

...funktioniert nicht! umleitungslimit wurde überschritten. Die Seite konnte nicht geladen werden. Die kann von den geblockten cookies herrühren... :(

MFG FLo

26.05.2005 12:34 | geändert: 26.05.2005 12:53

8 fligor

da hat was nicht geklapppt guck mal:

vom wannabrowser:
HTTP/1.1 301 Moved Permanently
Date: Thu, 26 May 2005 10:49:38 GMT
Server: Apache/1.3.29 (Unix)
Location: http://florian.faule-schweine.com/forum/?action=show_forum&file=kino&kat=Filmkritik
Transfer-Encoding: chunked
Content-Type: text/html; charset=iso-8859-1

<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">
<HTML><HEAD>
<TITLE>301 Moved Permanently</TITLE>
</HEAD><BODY>
<H1>Moved Permanently</H1>
The document has moved <A HREF="http://florian.faule-schweine.com/forum/?action=show_forum&amp;file=kino&amp;kat=Filmkritik">here</A>.<P>
</BODY></HTML>

Kannst mit schnell sagen warum? Ansonsten werd ich den 410 echt wieder einfügen.

MFG FLo

26.05.2005 12:52

9 Jörg Kruse

Ja, Mist, der query_string wird hinten wieder dran gehägt, und dadurch kommt's zu einer Endlosschleife :(


Edit

versuch es mal so:

RewriteCond %{QUERY_STRING} ^action=(.*)$
RewriteRule ^index\.php$ http://florian.faule-schweine.com/forum/? [R=301,L]

durch das abschließene ? sollte der alte Query String entfernt werde

26.05.2005 13:12 | geändert: 26.05.2005 13:31

10 Jörg Kruse

Mit der oben angebrachten Korrektur funktioniert's - hab's auf meinem Server getestet

Zu den anderen Fragen:

Lediglich eine Seite wurde unter "schnell geld verdienen" durch komische möchtegern-suchmaschinen verlinkt. Ist das ein Problem?

ich denke, nein, ein einzelner toter Link ist nicht dramatisch, zumal der sicher auch nich von Dauer ist


Kann ich eigentlich auch noch was in die robots.txt zusätzlich schreiben oder reicht der .htaccess eintrag?

wenn du die index.php in der robots.txt vom Spidern ausschließt, würde Google nicht mehr Gelegenheit erhalten, von der 301 bzw. 410 Kenntnis zu erlangen - die beiden Maßnahmen schließen sich so gesehen einander aus - entweder Ausschluss über robots.txt oder 410 oder 301

26.05.2005 13:48