1
Vor kurzem hatte ich mal wieder Probleme mit Yahoo's Slurp. Er hat massenweise URLs gespidert, die er nicht spidern sollte. Die URLs hatten die Form /verzeihnis-x/?bla=irgendwas und waren zweifach vom Spidern ausgeschlossen:
a) durch das Attribut rel="nofollow" im Link - das hinderte den Bot aber nicht am Spidern :(
b) durch einen Ausschluss in der robots.txt:
Dummerweise entfernt der Bot (im Gegensatz zu anderen Bots) den Trailing Slash, so dass er aus seiner Sicht nicht das Verzeichnis /verzeichnis-x aufruft, sondern die Datei /verzeichnis-x, welche nicht in der robots.txt gesperrt ist.
Einen 08/15 Bot, der sich so blöd verhält, hätte ich nun in der .htaccess gesperrt - da Yahoo aber etwas an Traffic bringt, werde ich ihm wohl eine Extrawurst braten :( Mal schauen, ob er das versteht:
a) durch das Attribut rel="nofollow" im Link - das hinderte den Bot aber nicht am Spidern :(
b) durch einen Ausschluss in der robots.txt:
User-agent: *
Disallow: /verzeichnis-x/
Dummerweise entfernt der Bot (im Gegensatz zu anderen Bots) den Trailing Slash, so dass er aus seiner Sicht nicht das Verzeichnis /verzeichnis-x aufruft, sondern die Datei /verzeichnis-x, welche nicht in der robots.txt gesperrt ist.
Einen 08/15 Bot, der sich so blöd verhält, hätte ich nun in der .htaccess gesperrt - da Yahoo aber etwas an Traffic bringt, werde ich ihm wohl eine Extrawurst braten :( Mal schauen, ob er das versteht:
User-agent: Slurp
Disallow: /verzeichnis-x