Zur Navigation

Frage zur robots.txt

1 Tomm (Gast)

Hallo Jörg,
ich möchte nur noch Googlebot und einige andere Robots auf meine Seite zulassen,vor allem wegen dem steigenden Traffic
Ich habe jetzt eine robots.txt erstellt und möchte gerne wissen,ob alles korrekt formuliert wurde
Sind irgendwelche Fehler ??
Hier der Code
_____

User-agent: Googlebot
User-agent: Slurp
User-agent: Msnbot
User-agent: Googlebot-Image
User-agent: Adsbot-Google
User-agent: MediaPartners-Google
Disallow: /admin.php
Disallow: /images
Disallow: /pictures

User-agent: *
Disallow:/

22.12.2011 10:04

2 Jörg Kruse

Schaut OK aus. Du kannst den Code zur Sicherheit in den Google Webmaster Tools testen, unter Website-Konfiguration -> Crawler-Zugriff.

Bedenke auch, dass sich nur "gute" Bots an die robots.txt Anweisungen halten, "böse" Bots ignorieren die Datei schlichtweg.

22.12.2011 10:22

3 Jörg Kruse

Noch ein Nachtrag:

ich habe nur ein Auge auf die Syntax geworfen, nicht die korrekten Namen der Bots überprüft. In ihrem User-Agent-String, den man in den Logfiles findet, geben diese oft auch eine URL an, unter welcher man Infos erhält, u.a. unter welchem Namen man den Bot in der robots.txt Dateio ansprechen kann. Der MSNBot firmiert inzwischen auch als "bingbot"

22.12.2011 10:33 | geändert: 22.12.2011 10:35

4 Tomm (Gast)

Okay,Danke

Kann ich MSNbot schreiben oder besser bingbot ?

22.12.2011 14:42

5 Jörg Kruse

In meinen Logfiles taucht der MSNBot nicht mehr auf, nur noch der bingbot:

Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)

Unter der angegeben URL hält Microsoft entsprechende Infos für die Webseitenbetreiber bereit

22.12.2011 17:35 | geändert: 22.12.2011 17:35

6 Tomm (Gast)

Hallo Jörg,
Danke

Ich hoffe es bringt etwas
Ich glaub der meiste Traffic ist von Googlebot
Ich hab manchmal 1,5 GB pro Tag,ist etwas zuviel

Über 90% sind unsichtbarer Traffic

22.12.2011 19:54

7 Käptn Blaubär

Hallo Tomm,

in dieser robots.txt ...

User-agent: Googlebot
User-agent: Slurp
User-agent: Msnbot
User-agent: Googlebot-Image
User-agent: Adsbot-Google
User-agent: MediaPartners-Google
Disallow: /admin.php
Disallow: /images
Disallow: /pictures

User-agent: *
Disallow:/

... ist der erste Datensatz überflüssig, denn mit dem zweiten Datensatz

User-agent: *
Disallow: /

wird den (folgsamen) bots der Zugriff auf alles verboten.

Mal angenommen, die robots.txt würde nur den ersten Datensatz beinhalten, wären die Verzeichnisse images und pictures nicht gesperrt, weil der abschließende Schrägstrich fehlt.

Hier steht auch noch was zu Deinem Thema:
http://googlewebmastercentral-de.blogspot.com/2011/12/tipps-fur-hostanbieter-und-webmaster.html

22.12.2011 21:42

8 Jörg Kruse

Zitat von Käptn Blaubär
in dieser robots.txt ...

User-agent: Googlebot
User-agent: Slurp
User-agent: Msnbot
User-agent: Googlebot-Image
User-agent: Adsbot-Google
User-agent: MediaPartners-Google
Disallow: /admin.php
Disallow: /images
Disallow: /pictures

User-agent: *
Disallow:/

... ist der erste Datensatz überflüssig, denn mit dem zweiten Datensatz

User-agent: *
Disallow: /

wird den (folgsamen) bots der Zugriff auf alles verboten.

Der erste Datensatz wird dem Standard von robotstxt.org zufolge aber nicht durch den zweiten überschrieben (Hervorhebungen von mir):

If the value is '*', the record describes the default access policy for any robot that has not matched any of the other records.

Also gilt "*" nur für alle nicht erwähnten

Mal angenommen, die robots.txt würde nur den ersten Datensatz beinhalten, wären die Verzeichnisse images und pictures nicht gesperrt, weil der abschließende Schrägstrich fehlt.

Auch das sieht der Standard von robotstxt.org anders vor (Hervorhebungen von mir):

Disallow
The value of this field specifies a partial URL that is not to be visited. This can be a full path, or a partial path; any URL that starts with this value will not be retrieved. For example, Disallow: /help disallows both /help.html and /help/index.html, whereas Disallow: /help/ would disallow /help/index.html but allow /help.html.

Also /help schließt auch /help/index.html mit ein

Zur Sicherheit würde ich aber wie oben schon geschrieben, die robots.txt in den Webmaster Tools nochmal testen, dann sollte man auf der sicheren Seite sein

22.12.2011 22:08 | geändert: 22.12.2011 22:09

9 Käptn Blaubär

Hallo Jörg,

ich hatte mich an dem orientiert, was bei Selfhtml steht:
http://de.selfhtml.org/diverses/robots.htm

In Selfhtml-Beispiel gibt es auch zwei Datensätze:

User-agent: UniversalRobot/1.0
User-agent: mein-Robot
Disallow: /quellen/dtd/

User-agent: *
Disallow: /unsinn/
Disallow: /temp/
Disallow: /newsticker.shtml

und in der "Erläuterung" steht über den zweiten Datensatz:

Im zweiten Datensatz wird allen Robots verboten, die beiden Unterverzeichnisse /unsinn/ und /temp/ auszulesen.

Die von Dir zitierte und verlinkte Seite http://www.robotstxt.org/orig.html stammt immerhin schon aus dem Jahr 1994:
There are two historical descriptions:
. the original 1994 A Standard for Robot Exclusion document.
Zitat aus:
http://www.robotstxt.org/robotstxt.html

Aber Google sieht das aktuell noch genauso wie Du und das Original von 1994:
http://code.google.com/intl/de-DE/web/controlcrawlindex/docs/robots_txt.html
Abschnitt
Order of precedence for user-agents

Mir persönlich wäre es trotzdem zu riskant, so einen Datensatz in meine robots.txt reinzuschreiben, und ich will es auch gar nicht testen ;-)

22.12.2011 23:54

10 Tomm (Gast)

Hallo,
ich habe es in den Webmaster-Tools getestet und es funktioniert
Hier steht,dass man es so machen kann

http://www.homepage-performance.de/robots-txt-2.html

Gruß
Tomm

23.12.2011 06:54