Seit einiger Zeit nerven mich diverse (Suchmaschinen-)Bots, die hier im Paradise Resort ihr Unwesen treiben.
Als kleines Beispiel, der Bandbreiten-Vergleich der Suchmaschinen-Bots "YandexBot" und "Googlebot" im Zeitfenster vom 1. - 14. Januar 2013:
YandexBot
25.643 Hits, ca. 1.5 Gigabyte Traffic
Googlebot
17.199 Hits, ca. 790 Megabyte Traffic (und Googlebot indexiert tagtäglich und beinahe stündlich im Paradise Resort!)
Einfach unglaublich, was sich der YandexBot erlaubt...und er ist ja sowas von überflüssig für das Paradise Resort!
Normalerweise lassen sich seriöse Bots durch einen gezielten Eintrag in der "robots.txt" vertreiben:
CODE: |
1:
2:
|
User-agent: Yandex
Disallow: / |
|
Es gibt aber auch unseriöse Bots, die die "robots.txt" schlichtweg ignorieren (der russische YandexBot ist so einer).
Aber auch diese unerwünschten Bandbreitendiebe lassen sich für immer vertreiben.
Nachfolgend - und nicht nur für Webmaster - eine interessante und funktionierende Lösung für das Problem:
Man erstellt oder editiert die Datei
.htaccess im Hauptverzeichnis und fügt folgende Zeilen ein:
CODE: |
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
16:
17:
18:
19:
|
# erstellt eine sehr kurze Fehlerseite mit dem Text "gone.", bei einem Statuscode 410 (gone)
ErrorDocument 410 "<h1>gone.</h1>"
# falls noch nicht in der .htaccess vorhanden, wird nachfolgend die RewriteEgine eingeschaltet
RewriteEngine On
# bestimmte ip-gruppe erkennen und statuscode 410 (gone, seite nicht mehr verfügbar) senden
RewriteCond %{REMOTE_ADDR} ^141.8.*$ [OR]
RewriteCond %{REMOTE_ADDR} ^84.19.*$
RewriteRule ^(.*)$ http://www.die-eigene-domain.de/gone.htm [R=410,L]
# ODER AUCH:
# bestimmte useragents erkennen und statuscode 410 senden
RewriteCond %{HTTP_USER_AGENT} ^.*baidu.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*keymachine.*$ [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*yandex.*$ [NC]
RewriteRule /* http://www.die-eigene-domain.de/gone.htm [R=410,L]
|
|
Hinweis: die mit der Raute "#" beginnenden Kommentarzeilen können auch wieder gelöscht werden.
Der Inhalt der Datei "gone.htm" die nur als Dummy-Datei dient und die im Hauptverzeichnis erstellt wird:
CODE: |
1:
2:
3:
4:
5:
|
<html>
<body><h1>gone.</h1></body>
</html>
|
|
Resultat:
Die weitergeleiteten IP-Gruppen oder Useragent erhalten auf alle ihre Anfragen nur
noch den
HTTP-Statuscode 410 und eine weisse Seite mit "gone." zurück.
Der dafür benötigte Traffic reduziert sich pro Anfrage auf nur noch wenige Bytes.
Ich hoffe, ich konnte dem einen oder anderen mit meinem Tipp weiterhelfen
(auch Suchmaschinen und Gäste können Beiträge hier in den Board-News lesen, bzw. indexieren)
Grüssle,
PoMan