21
Er muß immerzu nur anfordern, auswerten, anfordern, auswerten, anfordern, auswerten...
Ja, so ist ganz grob gesehen der Ablauf
bauen und hosten
Er muß immerzu nur anfordern, auswerten, anfordern, auswerten, anfordern, auswerten...
Aber dann ist es schon komisch, daß man einen Bot per robots.txt darum bittet, bestimmte Dinge nicht anzufordern, statt diese Dinge einfach nicht auszuliefern.
Für meinen Crawler gibt es nur eine relevante robots.txt und die verlangt nicht mehr als regelmäßige Pausen. Also braucht der Crawler nichtmal die robots.txt oder Meta-tags auswerten können.
Wenn eine Netzseite angefragt wird, dann liefert der angesprochene Server zunächst einen HTTP-Statuscode.
Aber wie wird der HTTP-Statuscode aufgefangen?
Thema | Autor | Forum | Beiträge | Letzter Beitrag |
---|---|---|---|---|
Yahoo Slurp hält sich nicht an robots.txt | Jörg Kruse | Traffic-Analyse | 3 | 16.02.2008 19:07 |
Link aus Dropdown starten | uwe | PHP und MySQL | 5 | 22.12.2007 22:33 |
combined_access_log Files auf Server durchsuchen | Mario | Traffic-Analyse | 12 | 24.04.2006 09:05 |
larbin über .htaccess sperren | maschu | Traffic-Analyse | 5 | 01.03.2006 18:47 |