Du meinst den Traffic zwischen Webserver und Datenbankserver (falls Webserver und Datenbank überhaupt auf verschiedenen Servern liegen)?
Bei mir zuhause liegt alles auf der selben Festplatte und innerhalb des selben xampp-Systems. Trotzdem verschlingt die Verbindung zwischen PHP und Datenbank viele Stunden zusätzliche Zeit. Ein PHP-Skript ist ja sonst auf dreißig Sekunden Laufzeit beschränkt. Was könnte also sonst so lange dauern??
Außerdem wird auch die CPU ziemlich beansprucht. Der Arbeitsspeicher füllt sich nur bei richtigen Dauerschleifen. Die Beanspruchung solcher Ressourcen muß man sicherlich auch minimieren. Was wiederum voraussetzt, die Auslastung feststellen zu können. Falls Datenbank und Webserver auf verschiedenen Servern liegen, dann dürfte zwischen den beiden auch noch Traffic entstehen, der dann noch zusätzlich zu minimieren ist.
Nur Sekundenbruchteile dauert das auf meinem xampp-System jedenfalls nicht. Obwohl der Systemmonitor in der CPU-Last mehrere Peaks pro Sekunde zeigt. Der Crawler würde natürlich nicht nur einen INSERT machen, sondern eine Datei einlesen und sie komplett auswerten, also URIs darin suchen und ebenso nach der relevanten Information, beides wird in die Datenbanktabellen eingetragen, dann sind noch die Regeln aus Meta-tags und robots.txt mit den möglichen nächsten URI abzugleichen, schließlich wird davon eine aus der Datenbank geholt und die damit angegebene Datei als nächste verarbeitet. So stelle ich mir das bisher zumindest vor.
Das (gängige) Bild, dass ein Crawler auf fremden Servern unterwegs ist, und von dort die gesammelten Inhalte an den Heimatserver sendet, ist technisch nicht ganz korrekt. Die Crawler-Anwendung läuft auf deinem Server und stellt Anfragen an die entfernten Webserver, und diese schicken ihr (oder auch nicht) die angeforderten Inhalte.
Es ist schon schwierig, sich das vorzustellen. Theoretisch ist es klar, daß das Skript beim Interpreter bleibt, damit es interpretiert werden kann. Andererseits folgt ein Crawler nicht nur absoluten, sondern auch relativen Pfadangaben, falls solche verlinkt sind, befolgt Anweisungen aus Robots.txt oder Meta-tags, kann „ausgesperrt“ oder in eine Teergrube gelockt werden und schließlich zeigen manche Netzseiten auch noch an, welche Bots (und auch andere Nutzer) sich gerade „dort“ befinden. Also muß ein Teil davon irgendwie auch auf dem anderen Server stattfinden, sonst hätte der keine Informationen darüber und auch keinen Grund, sich über den Verbrauch seiner Ressourcen zu beschweren....
Ranma