Per .htaccess erwünschte Crawler zulassen, alle anderen aussperren

1 Martin

Hallo Jörg,
ich möchte gerne alle Spam-Crawler von einer ganz bestimmten Seite, nämlich der Kontakt/Impressumsseite, fernhalten.
Suchmaschinen-Crawler, zumindest die wichtigsten (Google, Bing, Yahoo), Youtube und Adwords-Crawler, sollen die Seite aber crawlen dürfen.

Bisher habe ich die Kontaktdaten auf einem Bild, was gut klappt, aber von Google und Co. nicht gelesen werden kann.

Ich habe im Web von langen Spamcrawler-Listen gelesen, die immer wieder mal aktualisiert werden und die dann üblicherweise per .htaccess explizit ausgesperrt werden.

Aber geht denn nicht der umgekehrte Weg, also in der .htaccess zunächst mal alle Crawler pauschal auszusperren und dann nur die erwünschten reinzulassen? Also so ähnlich wie in der robots.txt, wo man "alles" per disallow ausperren und dann einige Allow-Ausnahmen angeben kann?

Falls ja, wie würde so ein .htaccess-Code aussehen?

Grüße,

Martin

2 Jörg Kruse

Eine Whitelist wäre technisch schon möglich, indem darauf geprüft wird, dass alle gelisteten User-Agent-Strings nicht dem HTTP_USER_AGENT entsprechen, z.B.:

RewriteCond %{HTTP_USER_AGENT} !Gooblebot
RewriteCond %{HTTP_USER_AGENT} !Bingbot
# etc.
RewriteRule ^impressum\.html$ - [F,L]

Hierbei müssen aber auch alle User-Agent-Strings der unterschiedlichsten Browser aufgeführt werden, sonst könnte man ein rechtliches Problem bekommen, da das Impressum nicht für alle menschlichen Besucher aufrufbar ist. Das zweite Problem ist, dass sich unliebsame Crawler gerne als Browser ausgeben. Von daher halte ich ein Whitelist hier für nicht praktikabel

3 Martin

Ups, User und deren Browser... an die habe ich gar nicht gedacht :) die sollen die Seite natürlich schon aufrufen und sehen können.

Abgesehen von der üblichen Blacklist scheint es schwierig zu sein, da eine gute Lösung zu finden für "Google und Besucher-Browser ja, Spam-Crawler nein".

Wenn ich die Daten zusätzlich zum Bild selbst auch in dessen "alt" reinschreibe und per schema-Code nenne, dann kann es zwar Google lesen, aber die Spam-Crawler werden es ebenfalls lesen können (vermute ich mal).

Es müsste eine offizielle Stelle bei G geben, wo die Anschrift ect. angegeben werden kann und dann verweist man im schema code-darauf per "sameAs"-property. Aber dann muss man sicher gehen, dass DORT die Daten für Spam-Crawler nicht offen liegen und das Problem verschiebt sich nur auf eine andere Stelle. GoogleMyBusiness?

Fallen dir noch andere Möglichkeiten ein?
Ohne Bild die primär wichtigen Mail-Adresse und Telefonnummer "maskiert" zu schreiben, z.B. infoätttblabla.de und 0-9-4-1-1-4-5-6-9-8-7 wird dann wohl auch für Google unlesbar sein, nicht nur für Spam-Crawler.

Grüße,

Martin

4 Jörg Kruse

Auf Wikipedia werden einige Maßnahmen gegen Email-Harvester aufgeführt:

https://de.wikipedia.org/wiki/Spam#Verhindern,_dass_die_eigene_E-Mail-Adresse_in_die_Adressliste_von_Spammern_ger%C3%A4t

Wegen dem Googlebot habe ich mir diesbezüglich noch keine Gedanken gemacht, normalerweise schließe ich die Indexierung von Impressumsseiten sogar per "noindex" aus. Allerdings sehe ich es als Problem, wenn die Kontaktdaten nicht allgemein zugänglich sind, also z.B. auch über Screenreader, welche den Text auf den Grafiken nicht lesen können.

Emailharvester sind unterschiedlich "intelligent", Einige werden schon an einem alt="[ät]" einer @-Grafik scheitern, aber eine hundertprozentige Absicherung gibt es da wohl nicht, wenn auch Screenreader oder "gute" Bots die Adressen auslesen können sollen.

5 Martin

Wikipedia hat da einige gute Vorschläge, die Frage ist halt immer, ob das, was gegen Harvester wirkt, nicht gleichzeitig gegen Google ebenso gut wirkt.

Zugänglich sind die Kontaktdaten auf dem Bild auch für Blinde insofern, als ich eine extra Audio-Datei beim Bild habe, so dass sich Blinde die Kontaktdaten auch anhören können. Im Bild-alt und einem extra Satz weise ich darauf hin.
Der Google-crawler wird aber wohl auch mit der Audio-Datei nichts anfangen können. Oder kann sich Google das verstehend anhören, im Gegensatz zu Spam-crawler?
Vielleicht nach Aufforderung im schema-code, sich das anzuhören?

Warum ich gerne möchte, dass speziell Google die Kontaktdaten lesen kann, hat mit EAT zu tun. Sagt dir vermutlich etwas und wenngleich nur ein Detail innerhalb der EAT-Anforderungen, würde ich diesbezüglich Google die Daten gerne lesen lassen.
Zwar sind die Kontakdaten mit dem Bild faktisch sichtbar für die Besucher, aber Google kann das ja nicht feststellen.

6 Ranma (Gast)

Es müsste eine offizielle Stelle bei G geben, wo die Anschrift ect. angegeben werden kann und dann verweist man im schema code-darauf per "sameAs"-property.

Genial. Du hast den Webkatalog wiedererfunden. Einige Jahre nachdem Webkataloge von Suchmaschinen verdrängt wurden.
Ranma

7 Martin

Zitat von Ranma

Es müsste eine offizielle Stelle bei G geben,

Genial. Du hast den Webkatalog wiedererfunden. Einige Jahre nachdem Webkataloge von Suchmaschinen verdrängt wurden.
Ranma

Lesen hilft manchmal...

Ich spreche von einer Google-Möglichkeit, nicht von irgendeinem Webkatalog. Webkataloge waren übrigens nie eine Konkurrenz für Sumas und die Kontaktdaten dort nie das Entscheidende, meist gar nicht einzutragen.

Google hat so viele Features und wenn man da irgendwo seine Kontaktdaten verbindlich und seinerseits geschützt vor Spam hinterlegen könnte, wäre das eine saubere Lösung.
Zum Beispiel in der SC oder G+ (was es aber bald nicht mehr gibt) oder in irgendeinem der vielen anderen Google-Angebote, die per Google-Konto zugänglich sind.

8 Jörg Kruse

Beziehst du dich hierbei hier auf den 4. Punkt:

https://www.semrush.com/blog/eat-and-ymyl-new-google-search-guidelines-acronyms-of-quality-content/

The website features enough auxiliary information, for example, “About us,” “Contact,” or “Customer Service” information

Diese Anforderungen der Guidelines richten sich ja an die internen Quality Evaluators und diese würden solche Kriterien wohl per Augenschein prüfen. Ansonsten stünde Google ja auch vor dem Problem, dass es üblich ist, dass Emailadressen auf unterschiedlichste Weise geschützt werden und dass eine Prüfung alleine durch den Bot deswegen oft unzureichend ist.

9 Martin

Ja genau, das meine ich.

Die Autoren einiger EAT-Artikel folgern daraus dann noch etwas eindeutiger, dass die "complete legal contact data, like address..." vorhanden sein sollten.

Vorhanden sind sie ja, aber da es Google geschafft hat, viele Websites (einschl. meiner) ohne direkten Augenschein algorhythmisch im Ranking zurückzustufen, wäre es wohl nicht schlecht, es erneut dem Algo verständlich zu machen.

Sollte ich für die Kontaktseite schema verwenden, dann ist spätestens an der Stelle das Problem wieder da, weil der ausgezeichnete Inhalt auch visible sein muss auf der Seite. Visible für User und Google, denke ich mal.
Wobei ich die Kontaktseite evtl. auch gar nicht mit schema auszeichne, da ich diese Daten gar nicht im Knowledge Graph sehen will.

Bei mir ist nicht nur die Mail-Adresse, sondern alles auf dem Bild, also Anschrift, Mail und Telefonnummer.

nach oben

Beitrag schreiben (als Gast)

Verwandte Themen
Thema	Autor	Forum	Beiträge	Letzter Beitrag
Webcrawler	Ranma	Sonstiges	24	16.12.2015 15:30
Murdoch will Google aussperren	Jörg Kruse	Suchmaschinen	4	24.11.2009 15:17
Bots rewriten per User Agent	Jürgen.bcx	Webserver und .htaccess	7	03.06.2009 20:04
cgi / perl treibt mich zum Wahnsinn	Christian	Webserver und .htaccess	13	19.05.2008 19:51
soll man den ganzen IP-Block sperren?	Mario	Traffic-Analyse	14	05.11.2007 19:48
per .htaccess deeplinking verhindern ?	Gustafsson	Webserver und .htaccess	46	07.01.2007 20:38
Yahoo-MMCrawler	Jörg Kruse	Traffic-Analyse	9	30.12.2006 12:10

Per .htaccess erwünschte Crawler zulassen, alle anderen aussperren

Beitrag schreiben (als Gast)

Verwandte Themen