Zur Navigation

Yahoo-MMCrawler

1 maschu

Danke Jörg,

habe folgenden bot der nur Bilder spidert:

209.191.65.114
Yahoo-MMCrawler/3.x (mms dash mmcrawler dash support at yahoo dash inc dot com)

die robots.txt wird vorgängig aufgerufen


Kann man den sperren, oder vergibt man sich dabei etwas?

10.03.2006 07:46

2 Jörg Kruse

Ich würde das davon abhängig machen, ob du möchtest, dass die Bilder für die Yahoo Bildersuche indiziert werden. Wenn nicht, kannst du die Bilderverzeichnisse in der robots.txt sperren - falls der Bot sich daran nicht hält, diesen in der .htaccess sperren.

Nachtrag:
Ich habe grad noch mal geschaut, wie zuverlässig sich der Yahoo Bilderbot hinsichtlich der Anweisungen meiner robots.txt verhält:
Bilder, die ich schon seit längerem in der robots.txt gesperrt habe, finde ich bei Yahoo nicht, Bilder, die ich vor ein paar Monaten erst nachträglich gesperrt habe, dagegen schon noch. Möglicherweise braucht der Bot etwas bis zur Umsetzung nach Änderung der robots.txt - das ist bei der Google Bildersuche allerdings nicht anders, diese wird ja auch nur in größeren Abständen aktualisiert

10.03.2006 10:59

3 maschu

ist dieser robot nur für die Biler der Bildergalerie zuständig, oder auch für die Bilder auf den html-Seiten? Wenn dem so wäre, würden nach Aussperrung alle Dokumente im Cache ohne Bilder erscheinen.

10.03.2006 15:37

4 Jörg Kruse

Die Cache-Versionen von Yahoo referenzieren die Bilder auf der Originalseite. Die Bilder werden also nur dann nicht im Yahoo-Cache angezeigt, wenn man Deeplinking von Bildern verhindert (es sei denn man hat yahoo.com als Ausnahme-Domain definiert)

10.03.2006 17:05

5 maschu

ich laß' ihn mal gewähren, mit Ausnahmen ist es so eine Sache...

danke Jörg

10.03.2006 17:26

6 edgar müller (Gast)

hallo,

auf der suche nach infos zum useragent 'Yahoo-MMCrawler/3.x (mms dash mmcrawler dash support at yahoo dash inc dot com)' bin ich auf dieses forum gestossen.
bei mir wird schon die robots.txt dem bot verboten obwohl ich in der htaccess nichts dergleichen für den bot eingestellt habe.

meine htaccess:
---------------------------

DirectoryIndex start.php

RewriteEngine On

# umleitung nach domain mit 'www'

RewriteCond %{HTTP_HOST} !^www\.strassenmalerei\.com$
RewriteRule ^(.*)$ http://www.strassenmalerei.com/$1 [L,R=301]

# ErrorDocument *.php von Hand:
RewriteCond %{REQUEST_FILENAME} !-f
RewriteRule ^(.*).php$ http://www.strassenmalerei.com/error.php?error=404 [L]


ErrorDocument 410 http://www.strassenmalerei.com/error.php?error=410
ErrorDocument 404 http://www.strassenmalerei.com/error.php?error=404
ErrorDocument 401 http://www.strassenmalerei.com/error.php?error=401
ErrorDocument 403 http://www.strassenmalerei.com/error.php?error=403

############################

RewriteCond %{REMOTE_ADDR} ^63.148.99.2(2[4-9]|[3-4][0-9]|5[0-5])$ [OR] # Cyveillance spybot
RewriteCond %{REMOTE_ADDR} ^12\.148\.196\.(12[8-9]¦1[3-9][0-9]¦2[0-4][0-9]¦25[0-5])$ [OR] # NameProtect spybot
RewriteCond %{REMOTE_ADDR} ^12\.148\.209\.(19[2-9]¦2[0-4][0-9]¦25[0-5])$ [OR] # NameProtect spybot
RewriteCond %{REMOTE_ADDR} ^70\.84\.[0-9]+\.[0-9]+$ [OR] # theplanet ISP
RewriteCond %{REMOTE_ADDR} ^70\.85\.([0-9]{1,2}|1([01][0-9]|2[0-7]))\.[0-9]+$ [OR] # theplanet ISP
RewriteCond %{REMOTE_ADDR} ^195\.166\.237\. [OR] # nigerianischer BettelbriefAdressenSammler
RewriteCond %{REMOTE_ADDR} ^64\.62\.(12[8-9]|1[3-9][0-9]|2[0-5][0-9])\. [OR] # OmniexplorerBot
RewriteCond %{REMOTE_ADDR} ^66\.197\.(12[8-9]|1[3-9][0-9]|2[0-4][0-9]|25[0-5])\. [OR] # Dungeons Realm
RewriteCond %{HTTP_USER_AGENT} ^.*adressendeutschland.*$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^ArtfaceBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^ArtfaceBot [OR]
RewriteCond %{HTTP_USER_AGENT} BorderManager [OR]
RewriteCond %{HTTP_USER_AGENT} BruinBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Bot\ mailto:craftbot@yahoo.com [OR]
RewriteCond %{HTTP_USER_AGENT} ^CherryPicker [OR]
RewriteCond %{HTTP_USER_AGENT} ^CopyRightCheck [OR]
RewriteCond %{HTTP_USER_AGENT} ^CMUImageBot/spider.pl [OR]
RewriteCond %{HTTP_USER_AGENT} ^Convera [OR]
RewriteCond %{HTTP_USER_AGENT} ^Crescent [OR]
RewriteCond %{HTTP_USER_AGENT} ^Custo [OR]
RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Downloader.*$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [OR]
RewriteCond %{HTTP_USER_AGENT} ^PingALink [OR]
RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR]
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailCollector [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmeraldShield [OR]
RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR]
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR]
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR]
RewriteCond %{HTTP_USER_AGENT} EuripBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Faxobot [OR]
RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Grabber.*$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR]
RewriteCond %{HTTP_USER_AGENT} ^GornKer [OR]
RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR]
RewriteCond %{HTTP_USER_AGENT} ^Holmes [OR]
RewriteCond %{HTTP_USER_AGENT} ^.*HTTrack.*$ [OR]
RewriteCond %{HTTP_USER_AGENT} TurnitinBot [OR]
RewriteCond %{HTTP_REFERER} iaea\.org [OR] # spambot
RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} Indy\ Library [OR] # spambot
RewriteCond %{HTTP_USER_AGENT} ^InnerpriseBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR]
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR]
RewriteCond %{HTTP_USER_AGENT} ^IRLbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Irvine [OR]
RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR]
RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [OR]
RewriteCond %{HTTP_USER_AGENT} DTS\ Agent [OR] # spambot
RewriteCond %{HTTP_USER_AGENT} ^Knowledge.com [OR]
RewriteCond %{HTTP_USER_AGENT} ^larbin [OR]
RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^lwp-trivial [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mnogosearch [OR]
RewriteCond %{HTTP_USER_AGENT} ^oBot [OR] # spybot
RewriteCond %{HTTP_USER_AGENT} ^Ocelli [OR]
RewriteCond %{HTTP_USER_AGENT} ^OmniExplorer [OR]
RewriteCond %{HTTP_USER_AGENT} ^McBot [OR] # oesterreichische softwarefirma
RewriteCond %{HTTP_USER_AGENT} ^Mozilla.*\ obot [OR] # spybot
RewriteCond %{HTTP_USER_AGENT} ^NaverBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR]
RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetAnts [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetZIP [OR]
RewriteCond %{HTTP_USER_AGENT} ^NICErsPRO [OR]
RewriteCond %{HTTP_USER_AGENT} NPBot [OR] # NameProtect spybot
RewriteCond %{HTTP_USER_AGENT} NG/2.0 [OR]
RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR]
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR]
RewriteCond %{HTTP_USER_AGENT} ^pavuk [OR]
RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR]
RewriteCond %{HTTP_USER_AGENT} ^PEERbot [OR] # favicon-browser
RewriteCond %{HTTP_USER_AGENT} PicSpider [OR] # bildkiste de
RewriteCond %{HTTP_USER_AGENT} ^RedKernel [OR] # keine robotstxt
RewriteCond %{HTTP_USER_AGENT} ^RIN\.\ Web\ crawler [OR] # spambot
RewriteCond %{HTTP_USER_AGENT} Microsoft\ URL\ Control [OR] # spambot
RewriteCond %{HTTP_USER_AGENT} ^Shit [OR] # favicon-browser
RewriteCond %{HTTP_USER_AGENT} ^stat [OR] # statcrawler@gmail.com
RewriteCond %{HTTP_USER_AGENT} ^.*Sucker.*$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^SSM [OR]
RewriteCond %{HTTP_USER_AGENT} ^.*thebestofnet.*$ [OR]
RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebAuto [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebBandit [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebCopier [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebFetch [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebGo\ IS [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebLeacher [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebReaper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebSauger [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website\ Quester [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebStripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebZIP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Wget [OR]
RewriteCond %{HTTP_USER_AGENT} ^Widow [OR]
RewriteCond %{HTTP_USER_AGENT} ^WorQmada [OR]
RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^Yotta [OR] # Car Search Engine
RewriteCond %{HTTP_USER_AGENT} ^Zeus
RewriteRule ^.*$ - [F]

---------------------------

woran könnte das liegen? ich möchte dem bildersammler erlauben, meine seite zu crawlen.

danke für infos, edgar

30.12.2006 09:45

7 Jörg Kruse

Hallo edgar,

wie kommst du darauf, dass die robots.txt dem MMCrawler verboten ist? Wenn ich den User Agent String 'Yahoo-MMCrawler/3.x (mms dash mmcrawler dash support at yahoo dash inc dot com)' verwende, kann ich normal auf die robots.txt zugreifen.Theoretisch könnte noch die IP geblockt sein, aber das scheint mir hier nicht der Fall, jedenfalls nicht hinsichtlich der IP-Adressen, die mir bekannt sind. Zur Sicherheit könntest du die von dir geblockten IPs mit einem Whois nochmal überprüfen

30.12.2006 10:23 | geändert: 30.12.2006 10:24

8 edgarM

danke für die schnelle antwort jörg,

in den logfiles tauchen diese einträge auf:

68.142.212.233 - - [25/Dec/2006:00:00:35 +0100] "GET /images/rexona_men_stuntcity_2.jpg HTTP/1.0" 403 610 "-" "Yahoo-MMCrawler/3.x (mms dash mmcrawler dash support at yahoo dash inc dot com)"

68.142.212.211 - - [25/Dec/2006:20:20:43 +0100] "GET /robots.txt HTTP/1.0" 403 610 "-" "Yahoo-MMCrawler/3.x (mms dash mmcrawler dash support at yahoo dash inc dot com)"


und mehr davon...
finde aber in meiner liste der auszuschliessenden useragents keinen hinweis, dass ich den blocke. die liste ist aus dem netz kopiert also nicht von mir erstellt.

bei

64.62.136.205 - - [25/Dec/2006:21:21:55 +0100] "GET /galerie-13-fifa_27.jpg-big.htm HTTP/1.0" 403 610 "-" "Twiceler www.cuill.com/twiceler/robot.html"

verhält es sich genauso.

sperrt 1und1 vielleicht serverseitig manche bots?

nachtrag:
-----------
ip-adresse ergibt inktomi also yahoo

30.12.2006 11:25 | geändert: 30.12.2006 11:27

9 Jörg Kruse

Wenn 1und1 diese IPs blocken würde, würden diese denke ich gar nicht erst vom Apache geloggt werden

Bei näherer Betrachtung enthält die .htaccess aber doch einige potentielle Fehlerquellen.

- Durch eine Raute eingeleitete Kommentare sollten in einer neuen Zeile beginnen - also entweder die Kommentare hinter den RewriteConds entfernen oder in einer Zeile darüber anbringen.

- die Pipes (|) müssen durchgehend sein. Im Forum von webmasterworld.com gibt es z.B. das Problem, dass durchgehende Pipes als gebrochene angezeigt werden - womöglich wurden die betreffenden Zeilen von dort kopiert?

- Punkte in den Mustern sollten mit einem Backslash versehen werden

RewriteCond %{REMOTE_ADDR} ^63\.148\.99\.2(2[4-9]|[3-4][0-9]|5[0-5])$ [OR] # Cyveillance spybot
RewriteCond %{REMOTE_ADDR} ^12\.148\.196\.(12[8-9]|1[3-9][0-9]|2[0-4][0-9]|25[0-5])$ [OR] # NameProtect spybot
RewriteCond %{REMOTE_ADDR} ^12\.148\.209\.(19[2-9]|2[0-4][0-9]|25[0-5])$ [OR] # NameProtect spybot

30.12.2006 12:10 | geändert: 30.12.2006 12:19

Beitrag schreiben (als Gast)

Die Antwort wird nach der Überprüfung durch einen Moderator freigeschaltet.





[BBCode-Hilfe]