Zur Navigation

Nutch

1 C)-(iLL@

Ich hab auch zwei, die ich nicht kenne - wir könnten diese UAs mal in ein Thema 'Guter Bot - Böser Bot' fassen :)

Die zwei hier sind mir verdächtig, besonders der letzte:

NutchCVS/0.8-dev (Nutch; http://lucene.apache.org/nutch/bot.html; nutch-agent@lucene.apache.org)
SBIder/0.8-dev (SBIder; http://www.sitesell.com/sbider.html; http://support.sitesell.com/contact-support.html)

Sollte ich die ausschließen?

25.04.2006 09:59

2 Jörg

Nutch ist ein Open-Source-Crawler von apache.org:

About Nutch

Ist er bei dir negativ aufgefallen?

Zu dem anderen Bot antworte ich dir hier noch:

SBider

25.04.2006 10:11 | geändert: 25.04.2006 10:22

3 C)-(iLL@

Ist er bei dir negativ aufgefallen?

Könnte ich nicht sagen, er ist in den pool gewandert. Ich kannte den Bot nicht, aber wie ich das sehe, kann den ja jeder betreiben. Die Frage ist
1) sollte man kategorisch alles rausfiltern, was keine wirkliche Suchmaschine ist?
2) wie merke ich, ob er 'negativ' ist?

Das GB ist nicht plötzlich wieder voller Spam, wenn Du das meinst.

25.04.2006 10:27

4 Mario

1) sollte man kategorisch alles rausfiltern, was keine wirkliche Suchmaschine ist?
2) wie merke ich, ob er 'negativ' ist?

1) fast kategorisch, ja
2) watch your log-file heisst die Devise, anhand der aufgerufenen Seiten ergibt sich ein Muster, aber es braucht etwas Übung. Eine White-List ist mir aber doch noch zu restriktiv

Mario

25.04.2006 10:33

5 Jörg

zu 1) dazu müsste man erst einmal definieren, was eine "wirkliche" Suchmaschine ist

zu 2) Negativ ist meiner Einschätzung nach:

- wenn ein Bot sich die robots.txt gar nicht erst anschaut

- er die robots.txt zwar anschaut, aber missachtet

- es keine vernünftige Infoseite gibt, die im UA mitgeteilt wird

- auf der ersten Suchergebnisseite bei Google negative Kommentare zu finden sind

25.04.2006 10:33 | geändert: 25.04.2006 10:34

6 Mario

hier ist der richtige Platz:

RewriteCond %{HTTP_USER_AGENT} ^Nut [OR]

Mario

25.04.2006 10:36

Beitrag schreiben (als Gast)





[BBCode-Hilfe]