Roboty indeksujące (crawlery) przeszukują sieć WWW, skanują zawartość stron internetowych i indeksują je, dzięki czemu witryna może np. pojawić się w wynikach wyszukiwania. Z tego artykułu dowiesz się, jak zablokować robotom dostęp do strony za pomocą pliku .htaccess.
SPIS TREŚCI
Po co blokować boty?
Właściciele stron internetowych z reguły chcą, by były one odwiedzane i indeksowane przez roboty np. Google – to właśnie dzięki temu mogą pozycjonować swoje serwisy i docierać do nowych użytkowników. Jednak indeksowanie nie zawsze jest wskazane.
Jeśli np. dopiero pracujemy nad stroną i nie jest ona jeszcze gotowa do zaprezentowania użytkownikom albo zawiera dane, które pod żadnym pozorem nie powinny być udostępniane, należy zablokować robotom indeksującym dostęp do zawartości całego serwisu lub poszczególnych katalogów.
Na ogół do blokady robotów wykorzystuje się plik robots.txt, jednak ten sposób nie zawsze bywa w pełni skuteczny, dlatego sugerujemy wykorzystanie do blokady pliku .htaccess.
Blokowanie robotów w pliku .htaccess
Korzystając z poniższej formuły, możesz zablokować dostęp do strony lub wybranego katalogu jednemu lub kilku robotom:
RewriteEngine On RewriteCond %{HTTP_USER_AGENT} (xxx) [NC] RewriteRule (.*) - [F,L]
Jeśli chcesz zablokować jednego robota, w miejsce „xxx” wstaw jego nazwę.
Przykład:
RewriteEngine On RewriteCond %{HTTP_USER_AGENT} (Amazonbot/0.1) [NC] RewriteRule (.*) - [F,L]
Jeśli chcesz zablokować kilka robotów, w miejsce „xxx” wstaw nazwę jednego, następnie znak „|” (bez spacji przed i po nim), nazwę kolejnego i tak dalej.
Przykład:
RewriteEngine On RewriteCond %{HTTP_USER_AGENT} (Amazonbot/0.1|ClaudeBot/1.0) [NC] RewriteRule (.*) - [F,L]
Plik z formułą blokującą boty umieść w odpowiednim katalogu (np. w katalogu /public_html domeny, jeśli chcesz, by roboty nie miały dostępu do całej witryny lub w wybranym katalogu niższego rzędu, jeśli chcesz ograniczyć dostęp robotów wyłącznie do części serwisu).
Skąd wziąć nazwy botów?
Możesz również skontaktować się z BOK – prześlemy Ci wykaz botów, które najczęściej odwiedzają Twoją stronę.