Zur Navigation

Kein UA, Alexa Internet

1 C)-(iLL@

Hallo,

ein Bot (vermutlich - er akzeptiert kein JS und liest das CSS nicht aus, besucht jede Seite nur einmal schön hintereinander) macht sich seit gestern über meine Domain her und ist fleißig am werkeln:

209.237.238.225
209.237.238.227
UNITED STATES, CALIFORNIA
SAN FRANCISCO
ALEXA INTERNET

Er hat keinen User-Agent. Die IP lässt sich in keinen Hostnamen auflösen, bisher hat er die robots.txt befolgt. Was ist das? Soll man den aussperren?

Dazu: wie kann ich per .htaccess alle Bots aussperren, die keinen UA haben? Ist das sinnvoll?

01.05.2006 11:19 | geändert: 01.05.2006 11:24

2 Mario

erwartest Du von dem Bestellungen? Oder bist du von Alexa abhängig?


United Layer, Inc. UNITEDLAYER-1 (NET-209-237-224-0-1)
209.237.224.0 - 209.237.255.255
Alexa Internet ALEXA-INTERNET (NET-209-237-237-0-1)
209.237.237.0 - 209.237.238.255



Mario

01.05.2006 13:20

3 C)-(iLL@

erwartest Du von dem Bestellungen?

Oder bist du von Alexa abhängig?
Eine echte Suma würde ich ungern ausschließen, aber kommt der Robot echt ohne UA? Was ist denn das für ein Stil?

Was schlägst Du vor?

01.05.2006 13:25

4 Mario


Kleinschreibregel in .htaccess und die wichtigsten ausschlieesen

so z.B.
RewriteCond %{HTTP_USER_AGENT} !^ia_archiver

Mario

01.05.2006 13:41

5 C)-(iLL@

Nochmal für die Traffic-Unerfahrenen wie mich:

Ist das richtig?
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} !^ia_archiver
RewriteRule ^.* - [F]
Wie bestimme ich, dass der einen 404 und keinen 403 bekommt?

btw: wieso ia_archiver? Der User-Agent ist doch leer? *grübel*

Edit: Ach so, das schließt alles außer ia_archiver aus, ich dummerle habe das ! übersehen ^^ Wie kann ich genau jene ausschließen, die keinen UA haben?

01.05.2006 14:01 | geändert: 01.05.2006 14:18

6 Jörg

Wie kann ich genau jene ausschließen, die keinen UA haben?

Das sollte so gehen:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^$
RewriteRule ^.* - [F]

01.05.2006 14:19

7 C)-(iLL@

Vielen Dank, Jörg! ^$ hätte mir eigentlich auch einfallen sollen, aber manchmal da leide ich an 'brett-vorm-kopf'itis ^^

Kannst Du mir sagen, wo ich eine Referenz zu den Fehlern finde, die zurückgegeben werden? z.B. [F] steht für Forbidden = 403, was ist dann 404 oder 401?

01.05.2006 14:24

8 Jörg

Für 410 gibt es noch das [G] und für die Redirects das [R], mit Spezifizierung: [R=301] oder [R=302]. Eine Liste der Flags findest du hier:

Apache Module mod_rewrite (ziemlich weit unten auf der Seite)

Für 401 und 404 kenne ich keine Möglichkeit; 410 ("Gone") ist u.U. aber auch geeigneter als 404

01.05.2006 14:33 | geändert: 01.05.2006 14:34

9 C)-(iLL@

Au ja, eine Doku mehr zu lesen ^^ Da wird man ja irgendwann noch zum Freak :)) Dankeschön!

01.05.2006 14:43

10 Mario

bist Du doch schon lange, nur nicht bemerkt :)

Mario

01.05.2006 15:06