Hi Jörg und die anderen,
wie kann ich Suchmachschinen allgemein im HTTP_USER_AGENT erkennen?
Danke für die Antworten schonmnal im voraus
Der Fussballer
Hallo Fussballer,
meinst du wie man den Header HTTP_USER_AGENT technisch auswerten kann - oder woran man die einzelnen User Agent Strings der Suhmaschinenbots erkennen und verifizieren kann? Letzteres kann man am besten über die (Whois-)Überprüfung der IP-Adresse, da der User Agent String auch gefälscht sein kann
Die User Agent Strings kann man in folgender recht ausführlichen Liste nachschlagen:
http://www.psychedelix.com/agents/index.shtml
Hallo,
ich habe einfach eine Seitenstatistik machen, wie oft welcher browser benutzt wird. Das klappt auch, aber es gibt halt auch Suchmaschinen die die Seite besuchen. Das ganze sieht etwa so aus:
(Beispielwerte)
Internet Explorer 6: 35%
Firefox: 25 %
Unbekannt: 20 %
Internet Explorer 7: 12 %
Opera: 5 %
etc.
ich beziehe die Browser aus $HTTP_USER_AGENT (von wo sonst?). Ein großer Teil davon ist jedoch Unbekannt. Ich habe jedoch auch Seiten gesehen, wo die % von Unbekannt viel geringer war und wo es dafür noch "Suchmachschinen" gab.
Die Liste mit dem Link habe ich schon bei dir im Forum gefunden, aber die ist zu ausführlich, vorallem 90% dieser Bots werden nie meine Seite besuchen. Gibt es nicht so eine Liste wie auf deiner Seite (für die Browser, die benutz ich auch, danke nochmal an dieser Stelle) für Suchmaschinen, wo zumindest die wichtigsten aufgeführt sind (Googlebot und ein paar mehr).
Wenns im Internet dazu auch noch irgendeine Liste für Betriebssystemkennungen gibt, wie auf deiner Seite ( :-) ), dann wär ich noch mehr erfreut!
Ich danke dir
Fussballer
Gibt es nicht so eine Liste wie auf deiner Seite (für die Browser, die benutz ich auch, danke nochmal an dieser Stelle) für Suchmaschinen, wo zumindest die wichtigsten aufgeführt sind (Googlebot und ein paar mehr).
Eine solche Liste kenne ich leider nicht. Die Frage ist auch: welche Suchmaschinen stufst du als wichtig ein? Diejenigen, die im nennenswerten Umfang Besucher bringen? Letzteres hängt auch von der Sprache, Geographie und gegebenenfalls dem Thema einer Seite ab. In Deutschland sind in diesem Sinne im allgemeinen eigentlich nur die Bots von Google, Yahoo und MSN von größerer Bedeutung - und diese kann man an den Teilstrings "Googlebot", "Slurp" und "msnbot" festmachen. (Der Bilder-Bot von Yahoo hat allerdings einen anderen signifikanten Teilstring: "Yahoo-MMCrawler")
Danke für deine Hilfe :-)
Das sollte doch reichen um einen großen Teil zu decken.
Habe hier noch eine sehr gute Liste gefunden:
http://en.wikipedia.org/wiki/User_agent
2 Beiträge aus diesem Thread wurden in einen neuen Thread verschoben:
Beschreibung für alle Suchmaschinen