Zur Navigation

Probleme mit Yahoo's Slurp

1 Jörg Kruse

Vor kurzem hatte ich mal wieder Probleme mit Yahoo's Slurp. Er hat massenweise URLs gespidert, die er nicht spidern sollte. Die URLs hatten die Form /verzeihnis-x/?bla=irgendwas und waren zweifach vom Spidern ausgeschlossen:

a) durch das Attribut rel="nofollow" im Link - das hinderte den Bot aber nicht am Spidern :(

b) durch einen Ausschluss in der robots.txt:

User-agent: *
Disallow: /verzeichnis-x/

Dummerweise entfernt der Bot (im Gegensatz zu anderen Bots) den Trailing Slash, so dass er aus seiner Sicht nicht das Verzeichnis /verzeichnis-x aufruft, sondern die Datei /verzeichnis-x, welche nicht in der robots.txt gesperrt ist.

Einen 08/15 Bot, der sich so blöd verhält, hätte ich nun in der .htaccess gesperrt - da Yahoo aber etwas an Traffic bringt, werde ich ihm wohl eine Extrawurst braten :( Mal schauen, ob er das versteht:

User-agent: Slurp
Disallow: /verzeichnis-x

31.05.2006 12:36

2 Mario

ach der Y-Slurp ist dümmer als dumm... der spidert bei mir Seiten die es schon seit vielen Monaten nicht mehr gibt. Den 404-er versteht er auch nach dem 1001-ten Versuch noch nicht. Wie soll er denn den Trailing Slash richtig interpretieren? Soviel ich weiss wohnt der Slurp in Berlin in NK

Mario

31.05.2006 12:46

3 Jörg Kruse

Den 404-er versteht er auch nach dem 1001-ten Versuch noch nicht.

Wobei der 404-er noch nicht heißt: die Seite gibt es nich mehr, sondern nur: die Seite gibt es zur Zeit nicht. Eindeutiger ist da eine 410 ("Gone"). Aber nach einer gewissen Zeit sollte ein Bot auch bei 404ern von den Seiten lassen. Und auch die eindeutige 301 speichert Slurp wohl nur im Kurzzeitgedächtnis, beim nächsten Besuch ruft er die dauerhaft umgezogenen Dateien wieder unter der alten URL ab :(

31.05.2006 15:05 | geändert: 31.05.2006 15:06

Beitrag schreiben (als Gast)

Die Antwort wird nach der Überprüfung durch einen Moderator freigeschaltet.





[BBCode-Hilfe]