Zur Navigation

Bot-Catcher [2]

11 C)-(iLL@

Gestern habe ich ein kleines Zusatzprogramm 'botviewer' geschrieben, welches die mit 'botcatcher' gesammelten Daten anzeigt.

Was mit auffällt: Ist es normal, dass mal ein Bot reinschaut, und mal so eben nur eine Seite nimmt, und dann wieder abhaut? Ich glaube, ich muss meine Ansichten über die Arbeitsweisen von Spidern revidieren^^

Den Code gibt's hier, sobald ich damit zufrieden bin :)

26.04.2006 13:13 | geändert: 26.04.2006 20:26

12 Jörg

Schöne Übersicht :)

Ist es normal, dass mal ein Bot reinschaut, und mal so eben nur eine Seite nimmt, und dann wieder abhaut?

Das kommt schon vor - das Verhalten der einzelnen Bots ist da recht unterschiedlich.

26.04.2006 23:25

13 Mario

Rudi es wäre interessant und hilfreich, wenn Du die Liste von Zeit zu Zeit veröffentlichen oder zum Abruf bereithalten würdest. Werd sie dann mal durchforsten und mitteilen, welche bei mir keinen Zugang haben. Also noch etwas Daten sammeln.
Vielen Dank schon mal für die Mühe die Du Dir gemacht hast.



Mario

26.04.2006 23:53

14 C)-(iLL@

Rudi es wäre interessant und hilfreich, wenn Du die Liste von Zeit zu Zeit veröffentlichen oder zum Abruf bereithalten würdest.

Och klar, ich lass den catcher und den viewer dort laufen - vor allem wundert mich, ob irgendwann auch mal die vom Bot gespiderten Seiten in den Suchergebnissen auftauchen o_O Gooooogle war schon da, aber getan hat sich bisher nichts. *heul*

Das Skript sollte noch händisch die UAs kategorisieren können, d.h. per Button sagen, was ist Bot, was ist Browser - diese Funktion werde ich aber in einem geschützten Bereich unterbringen bzw. einen Minimal-Login reinbauen müssen, denn sonst kann ja jeder reinpfuschen :) Heute bin ich aber zu müde dazu, hatte 'nen anstrengenden Tag ^^

27.04.2006 00:00

15 Mario

Hallo Rudi

habe die Datenbank angelegt das botcacher.php Script in die root gelegt und include in der index.html ergänzt. Wenn ich z.B. den Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) simuliere, wird die Datenbank angesprochen.
Nun fehlt nur noch der view-cacher um die Treffer zu verfolgen.


Mario

27.04.2006 15:41

16 Mario

a) Es geht ja mit dem bot-cacher um eine Art Sammelwerk mit statitischen Daten. Demzufolge wäre es nicht schlecht, wenn man die Besucher-bots von mehreren Domains in eine einzige Datei schreiben, aber trotzdem auch das url-Unterscheidungsmerkmal registrieren könnte. Damit würde das Sammelwerk schneller wachsen

b) über die Darstellungsart der botviewer.php sollten wir vielleicht noch sprechen.

c) welche UA-Definitionslisten werden zur UA-Unterscheidung eingesetzt? (if ($ua_type != 'B') { //is not a known browser)

Mario

27.04.2006 17:23

17 C)-(iLL@

Es geht ja mit dem bot-cacher um eine Art Sammelwerk mit statitischen Daten
Rüschtüsch.
Demzufolge wäre es nicht schlecht, wenn man die Besucher-bots von mehreren Domains in eine einzige Datei schreiben, aber trotzdem auch das url-Unterscheidungsmerkmal registrieren könnte.
Mehrere Domains? So einfach geht das nicht :) Cross-site Scripting ist schließlich nicht möglich, und eine andere Möglichkeite, z.B. Import, wäre entsprechend aufwändig. Gedacht ist das Tool für jeweils eine Domain.

über die Darstellungsart der botviewer.php sollten wir vielleicht noch sprechen.

Sprich Dich aus... der botviewer ist relativ schnell zusammengezimmert, und hat ein CSS mit 10 Zeilen ;)

Welche UA-Definitionslisten werden zur UA-Unterscheidung eingesetzt?

B = Browser
R = Robot
U = Unknown

27.04.2006 18:27

18 Mario

Holla Rudi

- ok dann halt jede Domain einzeln
- werde mir mal Gedanken machen zu einer möglichst übersichtlichen Darstellung. Damit alles übersichtlich wird, sollten die Texte immer gleich ausgerichtet sein.
- und wo sind B, R und U definiert?








Mario

27.04.2006 19:00

19 C)-(iLL@

werde mir mal Gedanken machen zu einer möglichst übersichtlichen Darstellung. Damit alles übersichtlich wird, sollten die Texte immer gleich ausgerichtet sein.

Ich mach mal weniger Tabellen und mehr divs und headings, dann wirds schon mal besser. Farben waren bisher Mangelware :)

2) kommt eine allgemeine Übersicht über die Seiten rein, die erfasst wurden.

und wo sind B, R und U definiert?
Im Attribut 'type' der Tabelle 'uapool'. Momentan nur mit phpmyadmin zu ändern, dort werden enum-Felder zu recht angenehm zu bedienenden Radiobuttons. Über die Gui zu ändern kommt noch.

PS: Besser wäre mit der Kategorisierung zu warten, bis es mit der GUI geht, denn dann werden die vorhandenen Statistik-Daten gelöscht, wenn ein UA als Browser klassifiziert wird. Die interessieren uns ja nicht ^^ - Ein Browser-Detection Skript fällt in dem Fall aber flach, da teilweise Bots sich als Browser ausgeben, z.B.
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; ODP entries test; http://tuezilla.de/test-odp-entries-agent.html)
Lieber alle sammeln, irgendwann sind sie dann schon zusammen :) Unbekannte UAs werden anfangs sowieso verfolgt, ob Browser oder nicht.

27.04.2006 19:09 | geändert: 27.04.2006 19:45

20 Mario

ok dann warte ich mal bis Du soweit bist. Ich sammle mal Daten und lasse diese in die Datenbank schreiben. Morgen installiere ich die botcacher auf stärker frequentierte Domains. Wenn ich dann den viewer von Dir bekomme, kann ich dann auch sehen wer bei mir noch Eintritt hat. Viele werden ja mit einem 403-er bedient, die erscheinen dann natürlich nirgends. Aber so können wir ein paar gute Vergleiche anstellen. Danke für Deine Mühe.

Mario

27.04.2006 23:26 | geändert: 27.04.2006 23:39