Zur Navigation

Webseite aus Archive.org entfernen

1 Sabine (Gast)

Hallo Leute,

Habe nun mitbekommen, dass Archive.org die Angaben in der Robots.txt ignoriert.
Wie kann ich denn eine Webseite aus Archive.org entfernen???

10.02.2020 15:03

3 Sabine (Gast)

vielen Dank lieber Jörg für deine Antwort!

10.02.2020 16:56

4 Sabine (Gast)

Hallo Jörg,
was meinst du, was von folgenden den Crawler von Archive.org davon abhält, eine Webseite zu indizieren?


<ifModule mod_rewrite.c>
RewriteCond %{HTTP_USER_AGENT} (ia_archiver) [NC]
RewriteRule ^(.*)$ - [F,L]
</ifModule>

Oder


<IfModule mod_setenvif.c>
	SetEnvIfNoCase User-Agent ([a-z0-9]{2000,}) bad_bot
	SetEnvIfNoCase User-Agent (archive.org|binlar|casper|checkpriv|choppy|clshttp|cmsworld|diavol|dotbot|extract|feedfinder|flicky|g00g1e|harvest|heritrix|httrack|kmccrew|loader|miner|nikto|nutch|planetwork|postrank|purebot|pycurl|python|seekerspider|siclab|skygrid|sqlmap|sucker|turnit|vikspider|winhttp|xxxyy|youda|zmeu|zune) bad_bot
</IfModule>

12.02.2020 13:14

5 Jörg

Nur solange "ia_archiver" Teil des User-Agent-Strings ist. Und man erreicht damit vermutlich nicht, dass bereits indizierte Seiten aus dem Archiv entfernt werden.

Die zweite von dir gepostete Lösung ist unvollständig, darin wird nur die Variable bad_bot anhand des User-Agent-Strings definiert.

12.02.2020 14:21

6 Sabine (Gast)

Hallo Jörg, danke für deine Antwort.
Wie muss die zweite Variante der vollständig lauten?

12.02.2020 14:22

7 Jörg

Das kommt darauf an, auf welche Weise du den Bot sperren möchtest, mit "Deny from" oder "Require not" (ab Apache 2.4). Mit diesen Stichworten + "SetEnvIfNoCase" lassen sich auch Beispiele im Netz finden.

Für deine Zwecke sollte aber der mod_rewrite Code ausreichend sein - und du kannst ihn auch locker erweitern:

<ifModule mod_rewrite.c>
RewriteEngine on

RewriteCond %{HTTP_USER_AGENT} (ia_archiver|archive.org) [NC]
RewriteRule ^(.*)$ - [F,L]
</ifModule>

Zum Testen empfiehlt sich hierbei der User-Agent-Switcher, den es als Addon für Firefox und Chrome gibt.

Edit: "RewriteEngine on" muss ergänzt werden, falls noch nicht vorhanden

12.02.2020 16:19 | geändert: 12.02.2020 16:28

8 Sabine (Gast)

Hallo Jörg,
danke für den Code!

13.02.2020 14:52

9 Sabine (Gast)

bei einer statischen Webseite funktioniert der Code prima, aber bei einer WordPress-Seite bekomme ich die Fehlermeldung 500.
Habe bisher folgendes in der HTACCESS verwendet.

<FilesMatch "(\.htaccess)">
 Order deny,allow
 Deny from all
</FilesMatch>

<IfModule mod_expires.c>
 ExpiresActive On
 ExpiresDefault "access plus 2 month"
</IfModule>

<IfModule mod_deflate.c>
<FilesMatch "\.(html|css|js|xml|php|ttf|eot|woff|woff2|svg|txt)$">
 SetOutputFilter DEFLATE
</FilesMatch>
</IfModule>

<IfModule mod_rewrite.c>
	RewriteEngine On
	RewriteCond %{QUERY_STRING} (eval\() [NC,OR]
	RewriteCond %{QUERY_STRING} (127\.0\.0\.1) [NC,OR]
	RewriteCond %{QUERY_STRING} ([a-z0-9]{2000,}) [NC,OR]
	RewriteCond %{QUERY_STRING} (javascript:)(.*)(;) [NC,OR]
	RewriteCond %{QUERY_STRING} (base64_encode)(.*)(\() [NC,OR]
	RewriteCond %{QUERY_STRING} (GLOBALS|REQUEST)(=|\[|%) [NC,OR]
	RewriteCond %{QUERY_STRING} (<|%3C)(.*)script(.*)(>|%3) [NC,OR]
	RewriteCond %{QUERY_STRING} (\\|\.\.\.|\.\./|~|`|<|>|\|) [NC,OR]
	RewriteCond %{QUERY_STRING} (boot\.ini|etc/passwd|self/environ) [NC,OR]
	RewriteCond %{QUERY_STRING} (thumbs?(_editor|open)?|tim(thumb)?)\.php [NC,OR]
	RewriteCond %{QUERY_STRING} (\'|\")(.*)(drop|insert|md5|select|union) [NC]
	RewriteRule .* - [F]
</IfModule>
<IfModule mod_rewrite.c>
	RewriteCond %{REQUEST_METHOD} ^(connect|debug|move|put|trace|track) [NC]
	RewriteRule .* - [F]
</IfModule>
<IfModule mod_rewrite.c>
	RewriteCond %{HTTP_REFERER} ([a-z0-9]{2000,}) [NC,OR]
	RewriteCond %{HTTP_REFERER} (semalt.com|todaperfeita) [NC]
	RewriteRule .* - [F]
</IfModule>
<IfModule mod_alias.c>
	RedirectMatch 403 (?i)([a-z0-9]{2000,})
	RedirectMatch 403 (?i)(https?|ftp|php):/
	RedirectMatch 403 (?i)(base64_encode)(.*)(\()
	RedirectMatch 403 (?i)(=\\\'|=\\%27|/\\\'/?)\.
	RedirectMatch 403 (?i)/(\$(\&)?|\*|\"|\.|,|&|&amp;?)/?$
	RedirectMatch 403 (?i)(\{0\}|\(/\(|\.\.\.|\+\+\+|\\\"\\\")
	RedirectMatch 403 (?i)(~|`|<|>|:|;|,|%|\\|\{|\}|\[|\]|\|)
	RedirectMatch 403 (?i)/(=|\$&|_mm|cgi-|muieblack)
	RedirectMatch 403 (?i)(&pws=0|_vti_|\(null\)|\{\$itemURL\}|echo(.*)kae|etc/passwd|eval\(|self/environ)
	RedirectMatch 403 (?i)\.(aspx?|bash|bak?|cfg|cgi|dll|exe|git|hg|ini|jsp|log|mdb|out|sql|svn|swp|tar|rar|rdf)$
	RedirectMatch 403 (?i)/(^$|(wp-)?config|mobiquo|phpinfo|shell|sqlpatch|thumb|thumb_editor|thumbopen|timthumb|webshell)\.php
</IfModule>
<IfModule mod_setenvif.c>
	SetEnvIfNoCase User-Agent ([a-z0-9]{2000,}) bad_bot
	SetEnvIfNoCase User-Agent (archive.org|binlar|casper|checkpriv|choppy|clshttp|cmsworld|diavol|dotbot|extract|feedfinder|flicky|g00g1e|harvest|heritrix|httrack|kmccrew|loader|miner|nikto|nutch|planetwork|postrank|purebot|pycurl|python|seekerspider|siclab|skygrid|sqlmap|sucker|turnit|vikspider|winhttp|xxxyy|youda|zmeu|zune) bad_bot
</IfModule>

<files install.php>
 Order allow,deny
 Deny from all
</files>
 
<files wp-config.php>
 Order allow,deny
 Deny from all
</files>

<files readme.html>
 Order Allow,Deny
 Deny from all
 Satisfy all
</files>

<Files liesmich.html>
 Order Allow,Deny
 Deny from all
 Satisfy all
</files>
 	
<files error_log>
 Order allow,deny
 Deny from all
</files>

<files xmlrpc.php>
 Order Deny,Allow
 Deny from all
</files>

<IfModule mod_rewrite.c>
RewriteEngine On
RewriteBase /
RewriteRule ^wp-admin/includes/ - [F,L]
RewriteRule !^wp-includes/ - [S=3]
RewriteRule ^wp-includes/[^/]+\.php$ - [F,L]
RewriteRule ^wp-includes/js/tinymce/langs/.+\.php - [F,L]
RewriteRule ^wp-includes/theme-compat/ - [F,L]
</IfModule>

# BEGIN WordPress
# Die Anweisungen (Zeilen) zwischen `BEGIN WordPress` und `END WordPress` sind
# dynamisch generiert und sollten nur über WordPress-Filter geändert werden.
# Alle Änderungen an den Anweisungen zwischen diesen Markierungen werden überschrieben.
<IfModule mod_rewrite.c>
RewriteEngine On
RewriteBase /
RewriteRule ^index\.php$ - [L]
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule . /index.php [L]
</IfModule>

# END WordPress

14.02.2020 13:25

10 Jörg

Welcher Code - diesen hier:

<IfModule mod_setenvif.c>
	SetEnvIfNoCase User-Agent ([a-z0-9]{2000,}) bad_bot
	SetEnvIfNoCase User-Agent (archive.org|binlar|casper|checkpriv|choppy|clshttp|cmsworld|diavol|dotbot|extract|feedfinder|flicky|g00g1e|harvest|heritrix|httrack|kmccrew|loader|miner|nikto|nutch|planetwork|postrank|purebot|pycurl|python|seekerspider|siclab|skygrid|sqlmap|sucker|turnit|vikspider|winhttp|xxxyy|youda|zmeu|zune) bad_bot
</IfModule>

Der ist wie gesagt für sich genommen eh nutzlos, kannst du also entfernen.

Oder meinst du den Code in Beitrag 7? wo genau hast du den dann eingefügt?

14.02.2020 16:44 | geändert: 14.02.2020 16:46