Frage zur robots.txt

Seite 12

1 Tomm (Gast)

Hallo Jörg,
ich möchte nur noch Googlebot und einige andere Robots auf meine Seite zulassen,vor allem wegen dem steigenden Traffic
Ich habe jetzt eine robots.txt erstellt und möchte gerne wissen,ob alles korrekt formuliert wurde
Sind irgendwelche Fehler ??
Hier der Code
_____

User-agent: Googlebot
User-agent: Slurp
User-agent: Msnbot
User-agent: Googlebot-Image
User-agent: Adsbot-Google
User-agent: MediaPartners-Google
Disallow: /admin.php
Disallow: /images
Disallow: /pictures

User-agent: *
Disallow:/

2 Jörg Kruse

Schaut OK aus. Du kannst den Code zur Sicherheit in den Google Webmaster Tools testen, unter Website-Konfiguration -> Crawler-Zugriff.

Bedenke auch, dass sich nur "gute" Bots an die robots.txt Anweisungen halten, "böse" Bots ignorieren die Datei schlichtweg.

3 Jörg Kruse

Noch ein Nachtrag:

ich habe nur ein Auge auf die Syntax geworfen, nicht die korrekten Namen der Bots überprüft. In ihrem User-Agent-String, den man in den Logfiles findet, geben diese oft auch eine URL an, unter welcher man Infos erhält, u.a. unter welchem Namen man den Bot in der robots.txt Dateio ansprechen kann. Der MSNBot firmiert inzwischen auch als "bingbot"

4 Tomm (Gast)

Okay,Danke

Kann ich MSNbot schreiben oder besser bingbot ?

5 Jörg Kruse

In meinen Logfiles taucht der MSNBot nicht mehr auf, nur noch der bingbot:

Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)

Unter der angegeben URL hält Microsoft entsprechende Infos für die Webseitenbetreiber bereit

6 Tomm (Gast)

Hallo Jörg,
Danke

Ich hoffe es bringt etwas
Ich glaub der meiste Traffic ist von Googlebot
Ich hab manchmal 1,5 GB pro Tag,ist etwas zuviel

Über 90% sind unsichtbarer Traffic

7 Käptn Blaubär

Hallo Tomm,

in dieser robots.txt ...

User-agent: Googlebot
User-agent: Slurp
User-agent: Msnbot
User-agent: Googlebot-Image
User-agent: Adsbot-Google
User-agent: MediaPartners-Google
Disallow: /admin.php
Disallow: /images
Disallow: /pictures

User-agent: *
Disallow:/

... ist der erste Datensatz überflüssig, denn mit dem zweiten Datensatz

User-agent: *
Disallow: /

wird den (folgsamen) bots der Zugriff auf alles verboten.

Mal angenommen, die robots.txt würde nur den ersten Datensatz beinhalten, wären die Verzeichnisse images und pictures nicht gesperrt, weil der abschließende Schrägstrich fehlt.

Hier steht auch noch was zu Deinem Thema:
http://googlewebmastercentral-de.blogspot.com/2011/12/tipps-fur-hostanbieter-und-webmaster.html

8 Jörg Kruse

Zitat von Käptn Blaubär
in dieser robots.txt ...
User-agent: Googlebot
User-agent: Slurp
User-agent: Msnbot
User-agent: Googlebot-Image
User-agent: Adsbot-Google
User-agent: MediaPartners-Google
Disallow: /admin.php
Disallow: /images
Disallow: /pictures

User-agent: *
Disallow:/
... ist der erste Datensatz überflüssig, denn mit dem zweiten Datensatz

User-agent: *
Disallow: /

wird den (folgsamen) bots der Zugriff auf alles verboten.

Der erste Datensatz wird dem Standard von robotstxt.org zufolge aber nicht durch den zweiten überschrieben (Hervorhebungen von mir):

If the value is '*', the record describes the default access policy for any robot that has not matched any of the other records.

Also gilt "*" nur für alle nicht erwähnten

Mal angenommen, die robots.txt würde nur den ersten Datensatz beinhalten, wären die Verzeichnisse images und pictures nicht gesperrt, weil der abschließende Schrägstrich fehlt.

Auch das sieht der Standard von robotstxt.org anders vor (Hervorhebungen von mir):

Disallow
The value of this field specifies a partial URL that is not to be visited. This can be a full path, or a partial path; any URL that starts with this value will not be retrieved. For example, Disallow: /help disallows both /help.html and /help/index.html, whereas Disallow: /help/ would disallow /help/index.html but allow /help.html.

Also /help schließt auch /help/index.html mit ein

Zur Sicherheit würde ich aber wie oben schon geschrieben, die robots.txt in den Webmaster Tools nochmal testen, dann sollte man auf der sicheren Seite sein

9 Käptn Blaubär

Hallo Jörg,

ich hatte mich an dem orientiert, was bei Selfhtml steht:
http://de.selfhtml.org/diverses/robots.htm

In Selfhtml-Beispiel gibt es auch zwei Datensätze:

User-agent: UniversalRobot/1.0
User-agent: mein-Robot
Disallow: /quellen/dtd/

User-agent: *
Disallow: /unsinn/
Disallow: /temp/
Disallow: /newsticker.shtml

und in der "Erläuterung" steht über den zweiten Datensatz:

Im zweiten Datensatz wird allen Robots verboten, die beiden Unterverzeichnisse /unsinn/ und /temp/ auszulesen.

Die von Dir zitierte und verlinkte Seite http://www.robotstxt.org/orig.html stammt immerhin schon aus dem Jahr 1994:

There are two historical descriptions:
. the original 1994 A Standard for Robot Exclusion document.

Zitat aus:
http://www.robotstxt.org/robotstxt.html

Aber Google sieht das aktuell noch genauso wie Du und das Original von 1994:
http://code.google.com/intl/de-DE/web/controlcrawlindex/docs/robots_txt.html
Abschnitt

Order of precedence for user-agents

Mir persönlich wäre es trotzdem zu riskant, so einen Datensatz in meine robots.txt reinzuschreiben, und ich will es auch gar nicht testen ;-)

10 Tomm (Gast)

Hallo,
ich habe es in den Webmaster-Tools getestet und es funktioniert
Hier steht,dass man es so machen kann

http://www.homepage-performance.de/robots-txt-2.html

Gruß
Tomm

Seite 12

nach oben weiter >

Verwandte Themen
Thema	Autor	Forum	Beiträge	Letzter Beitrag
robots.txt Besucher	Jan	Traffic-Analyse	3	27.02.2023 16:00
Frage zum Impressum	Lena567	Online-Recht	3	15.08.2020 08:43
Ist meine robots.txt und sitemap.xml für Desktop und Mobile Seite so korrekt?	Lina-HH	SEO	20	04.02.2019 11:13
www. Redirect für die robots.txt Datei ist fehlerhaft.	VolkerF	SEO	4	11.04.2015 21:46
robots.txt wird nicht gefunden	Franky30	Webserver und .htaccess	4	03.12.2008 09:11
Frage zur Robots.txt	nio	SEO	4	07.10.2008 17:21
Verzeichnis mit 301-Weiterleitung in robots.txt disallow	Rudy	SEO	5	06.08.2008 12:05

Frage zur robots.txt

Verwandte Themen