Zur Navigation

Rewrite für Bingbot

1 Jan

Hallo Jörg,

heute kam z.B diese Anfrage vom Bingbot

40.77.167.0 - - [02/Jul/2023:14:59:50 +0200] "GET /2020/10/27/fire-up-your-motivation/ HTTP/1.1" 301 - "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/103.0.5060.134 Safari/537.36"

Mir ist die angeforderte URL völlig unbekannt, kann aber nicht ausschließen das die URL von einem Vorgänger in Wordpress einmal verwendet wurde.

Ähnliche Anfragen kommen immer wieder von Bing.

Kann da dieses Abhilfe schaffen?

<IfModule mod_rewrite.c>
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT}  (bingbot) [AND]
RewriteCond %{REQUEST_URI} ^/2020/(.*)$
RewriteRule ^ - [G,L]
</IfModule>

Auch gibt es noch alte URLs die via 301 umgeleitet werden. Aber diese sollen wenn der Binbot diese URLs aufruft mit einem 404er beantwortet werden.

In diesem Fall muss die spezielle Regel für den Bingbot ja wohl vor die Regel welche die alte URLs umschreibt.

z.B wird derzeit so umgeleitet

RewriteRule ^bilder/Apartment-A/ https://example.org/bilder/ [R=301,L]

Dann müsste ich wohl diese Regel davor ausführen lassen?

<IfModule mod_rewrite.c>
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} (bingbot) [AND]
RewriteCond %{REQUEST_URI} ^bilder/Apartment-A/(.*)$ [OR]
RewriteCond %{REQUEST_URI} ^bilder/Apartment-B/(.*)$ [OR]

... etc und ohne [OR] beim letzten Eintrag

RewriteRule ^ - [G,L]
</IfModule>

Mit freundlichen Grüßen - Jan

03.07.2023 17:56

2 Jörg Kruse

RewriteCond %{HTTP_USER_AGENT}  (bingbot) [AND]

Ein AND-Flag gibt es m.E. nicht. Die AND-Verknüpfung ist implizit, es sei denn ein OR ist angegeben.

RewriteRule ^ - [G,L]

Der Status Code "410 Gone", der mit dem G-Flag gesetzt wird, ist schon ein deutliches Signal an die Suchmaschinen, die Seite nicht mehr aufzusuchen. Oft kommen die Bots trotzdem wieder, verlieren aber wohl schneller das Interesse als bei einem "404 Not Found"

Dann müsste ich wohl diese Regel davor ausführen lassen?

Ja, aber ohne das AND :) und das "(.*)$" am Ende der Patterns ist hier auch überflüssig

Edit:

Allerdings wäre ich schon vorsichtig damit, Suchmaschinen-Bots und normalen Besuchern unterschiedliche HTTP-Status-Codes auszuliefern. Die Suchmaschinen könnten dies als verbotene Optimierungsmethode (Cloaking) interpretieren. Der Bing- und der Googlebot könnten auch schon mal mit normalen User Agent String um die Ecke kommen, um Cloaking aufzudecken.

03.07.2023 19:06 | geändert: 03.07.2023 19:15

1 Forenmitglied fand diesen Beitrag gut

3 Jan

Hallo Jörg,

Allerdings wäre ich schon vorsichtig damit, ...

Hm ... Danke für den Hinweis.

Eigentlich sollte doch ein 301er im Laufe der Zeit nicht mehr von der SuMa aufgesucht werden, oder?

Ich stelle aber fest das immer wieder die alten Seite z.B von Bing aufgerufen werden. Dabei ist doch auch eine SiteMap vorhanden und auch Bing bekannt.

Die Umleitungen sind schon ein paar Monate vorhanden, sollte man diese dann nicht besser jetzt als 410er angeben? Und dann hoffen das dies mal Abhilfe schafft?

Mit freundlichen Grüßen - Jan

04.07.2023 17:34

4 Jörg Kruse

301 und 410 unterscheiden sich nicht in der Dauerhaftigkeit des Status. 301 ist "dauerhaft woanders" und 410 "dauerhaft weg". Wenn der Bot trotz 301 weiterhin vorbeischaut, wird er es vermutlich auch bei einer 410. Die Suchmaschinen haben halt die Erfahrung gemacht, dass die Status Codes nicht immer korrekt gesetzt werden, deswegen sehen sie diese auch nur als ein Indiz an. Ein Grund für das hartnäckige Crawlen kann sein, dass die betreffenden URLs noch gut (ggf. von extern) verlinkt sind.

04.07.2023 18:48

5 Jan

Hallo Jörg,

dann habe ich die SuMas mal wieder überschätzt. Da hänge ich schon das Schild "Verzogen nach ..." bzw. "Verstorben" an die Tür ... und trotzdem wird mir nicht getraut ... ich könnte mich ja irren ;-)

Aber wie du ja auch bemerkt hast waren die alten URLs wirklich gut verlinkt und die Seite insgesamt gut in den Suchergebnissen platziert ...

Ich belasse es einfach wie es ist und mache mir darüber keine Gedanken mehr :-)

Danke für deine immer wieder hilfreichen und informative Hinweise.

Mit freundlichen Grüßen - Jan

05.07.2023 09:59

6 Jan

Hallo Jörg,

trotzdem noch eine Nachfrage ;-)

40.77.167.0 - - [05/Jul/2023:14:38:34 +0200] "GET /wp-json/wp/v2/mphb_room_type_facility/65 HTTP/1.1" 401 99 "-" "Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/103.0.5060.134 Safari/537.36"

Das ist doch ein Link der so sicher nie verlinkt war? Ich kann mich aber erinnern das ich bei Übernahme des Servers Reste dieses ehemalige Plugin in der DB fand ...

401 kommt da ich die REST-API gesperrt habe.

Mit freundlichen Grüßen - Jan

06.07.2023 14:34

7 Jörg Kruse

Der Bingbot holt sich auch Ressourcen, die in eine Webseite eingebunden sind und führt dabei auch JavaScript aus. Gut verlinkt ist also möglicherweise eine Webseite, die in der Vergangenheit über diesen API-Endpunkt Inhalte bezogen hat.

06.07.2023 16:26

1 Forenmitglied fand diesen Beitrag gut

8 Jan

Hallo Jörg,

mittlerweile ist mir auch klar woher die Anfragen zur alten Webseite kommen - die Adressen sind noch immer auf zig Seiten so verlinkt und werden auch vom BingBot "verfolgt" ;-)

Dann ist ja alles im grünen Bereich.

Mit freundlichen Grüßen - Jan

10.07.2023 13:01

Beitrag schreiben (als Gast)

Die Antwort wird nach der Überprüfung durch einen Moderator freigeschaltet.





[BBCode-Hilfe]