Zur Navigation

Bot-Catcher [4]

31 Mario

Von etwaigen intelligenten bekommst du u.U. gar nichts mit ;)

die sind aber in der Minderheit und ich könnte es sicher statistisch ausmachen ;)

Aber die URL für die Bottrap würde ich neutral bezeichnen
Mario diese Satz nix verstehen, entweder sind sie schlau oder bleiben dumm :)


Mario

28.04.2006 13:30

32 C)-(iLL@

Programme bleiben immer dumm, jedes aber auf seine eigene Weise ^^.

28.04.2006 19:42

33 C)-(iLL@

Um gute und böse (omg, schwarz-weiß-denken ^^) Bots unterscheiden zu können, habe ich die Falle nun ebenfalls ausgelegt. Aber so auffällig mache ich es nicht :) Ich habe eine robots.txt angelegt (meine erste übrigens), in der ich das Impressum, Kontaktformular und Gästebuch vom Index ausschließe, auf der Willkommen-Seite habe ich einen Link dorthin eingeflechtet. Im botviewer kann man nach dem Login die Seiten als 'noindex' markieren, indem man die Häkchen bei den jeweiligen Checkboxen entfernt - sie werden dann in der Seitenliste gelb. Sobald ein unbekannter UA in die Seiten eindringt, wird der Visit-Eintrag der Tabelle rot.

Eine Schwachstelle hat das Ganze: Ein Bot könnte mit einer von normalen Browsern nicht zu unterscheidenden Kennung daherkommen und wird nicht erfasst. Das würde ich jedenfalls machen, wollte ich nur content abgrasen oder Spamflächen suchen. Na ja, die Dummen triffts zuerst. Für mich ist ja vor allem interessant, wie die Bots bei der Indizierung vorgehen - schwarze Schafe wird es immer geben.

28.04.2006 21:42 | geändert: 28.04.2006 21:43

34 Mario

Ein Bot könnte mit einer von normalen Browsern nicht zu unterscheidenden Kennung daherkommen und wird nicht erfasst. Das würde ich jedenfalls machen, wollte ich nur content abgrasen oder Spamflächen suchen.

das machen leider viele, aber durch die Spider-Falle, lernt man die verschiedenen Abgras-Muster kennen. Man sieht genau was sie suchen, bis sie dann in die Falle tapsen. Viele suchen dann einfach weiter und jede Ausgabe ergibt 403. Also doch sau dumm :)

Mario

29.04.2006 00:38

35 Jörg

Aber die URL für die Bottrap würde ich neutral bezeichnen

Mario diese Satz nix verstehen, entweder sind sie schlau oder bleiben dumm :)

Was ist daran unverständlich? Ein Include kann niemand von außen erkennen, eine URL schon

Viele suchen dann einfach weiter und jede Ausgabe ergibt 403. Also doch sau dumm :)

Warum sollte man einen Bot so pragrammieren, dass er nach dem ersten 403er nicht mehr weitercrawlt? Ertappt ist ertappt. Dagegen würde es vielleicht schon Sinn machen, den Bot so zu programmieren, dass er bestimmte Dateien von vornherein meidet, umn gar nicht erst in die Falle zu stolpern. Vielleicht gibt es so einen Bot noch nicht, aber je mehr Bottraps in Mode kommen, umso größer ist auch die Wahrscheinlichkeit, dass mal jemand so einen konstruiert oder auch einen Sauger entsprechend konfiguriert

29.04.2006 08:10

36 Mario

Warum sollte man einen Bot so pragrammieren, dass er nach dem ersten 403er nicht mehr weitercrawlt?

nachdem er in die Falle tappt. bekommt er nur noch 403-er. Klar, er weiss ja noch nicht, dass seine IP gesperrt wurde, das stimmt schon. Nur wenn er dann 3 oder mehr Tage hintereinander es wieder versucht, mit der gleichen IP, dem gleichen UA, vergeudet er seine Zeit. Deshalb meinte ich auch, sie seien noch sau dumm...

Wäre er schlau, so würde er den Link der zur ersten 403-er Ausgabe führt, beim nächsten Anlauf mit neuer IP erst mal weglassen und alle anderen Links auf dieser Seite und deren Unterseiten spidern.

Klar werden sie sicher eines Tages schlauer, aber auch das Abwehrschild kann verstärkt werden. Dann beginnt halt eine Aufrüstung hüben wie drüben.

Mario

29.04.2006 08:36

37 Jörg

Nur wenn er dann 3 oder mehr Tage hintereinander es wieder versucht, mit der gleichen IP, dem gleichen UA, vergeudet er seine Zeit.

Diese Zeitvergeudung fällt aber wohl kaum ins Gewicht für den Botbetreiber

Wäre er schlau, so würde er den Link der zur ersten 403-er Ausgabe führt, beim nächsten Anlauf mit neuer IP erst mal weglassen und alle anderen Links auf dieser Seite und deren Unterseiten spidern.

Vielleicht gibt es sogar schon so schlaue Kerlchen - nur du weißt halt nichts von ihnen, weil du nur nach den Dummen Ausschau hälst ;)

Klar werden sie sicher eines Tages schlauer, aber auch das Abwehrschild kann verstärkt werden. Dann beginnt halt eine Aufrüstung hüben wie drüben.

Und wie bringst du in Erfahrung, dass sie schlauer geworden sind? Was spricht dagegen, eine Lücke zu schließen, bevor sie genutzt wird?

29.04.2006 09:16

38 Mario

zur Zeitvergeudung: wenn es zig-hunderte sind fällt es sehr wohl ins Gewicht

Feststellen lässt sich das nie genau, der Zeitaufwand wäre mit diesem Trap-System viel zu gross. Nichts spricht dagegen, die Lücke von den Seitenbetreibern her zu schliessen, die Frage ist bloss mit welchem Vorgehen?


Mario

29.04.2006 11:03

39 Mario

@Rudi

Unterverzeichnis:
wenn ich alle 4 Dateien in die root lege, funktioniert's, wenn ich sie in ein Verzeichnis /botcacher/ lege funktioniert es nicht.

Bots oder Browser:

habe mal die ersten 3 die reinkamen als Bots definiert, es waren 2x msn und 1x Googlebot. Nach der Zuweisung per Button erscheinen sie im BotViewer nicht mehr. :(



Mario

29.04.2006 11:15

40 Jörg

@Beitrag 38:

Einfach umbenennen. Wenn die Bottrap beispielsweise unter der URL example.org/bottrap/bottrap.php erreichbar ist, die Datei verschieben nach example.org/verzeichnis-xy/datei-z.php

29.04.2006 11:16 | geändert: 29.04.2006 11:17