Jak zablokować roboty indeksujące za pomocą pliku .htaccess? 

Roboty indeksujące (crawlery) przeszukują sieć WWW, skanują zawartość stron internetowych i indeksują je, dzięki czemu witryna może np. pojawić się w wynikach wyszukiwania. Z tego artykułu dowiesz się, jak zablokować robotom dostęp do strony za pomocą pliku .htaccess.

SPIS TREŚCI

Blokowanie dostępu robotów do strony

Po co blokować boty?

Właściciele stron internetowych z reguły chcą, by były one odwiedzane i indeksowane przez roboty np. Google – to właśnie dzięki temu mogą pozycjonować swoje serwisy i docierać do nowych użytkowników. Jednak indeksowanie nie zawsze jest wskazane.

Jeśli np. dopiero pracujemy nad stroną i nie jest ona jeszcze gotowa do zaprezentowania użytkownikom albo zawiera dane, które pod żadnym pozorem nie powinny być udostępniane, należy zablokować robotom indeksującym dostęp do zawartości całego serwisu lub poszczególnych katalogów.

Na ogół do blokady robotów wykorzystuje się plik robots.txt, jednak ten sposób nie zawsze bywa w pełni skuteczny, dlatego sugerujemy wykorzystanie do blokady pliku .htaccess.

Blokowanie robotów w pliku .htaccess

WAŻNE! Formuła blokująca boty powinna znaleźć się na samym początku pliku .htaccess, ponad innymi formułami.

Korzystając z poniższej formuły, możesz zablokować dostęp do strony lub wybranego katalogu jednemu lub kilku robotom:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (xxx) [NC]
RewriteRule (.*) - [F,L]

Jeśli chcesz zablokować jednego robota, w miejsce „xxx” wstaw jego nazwę.

Przykład:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (Amazonbot/0.1) [NC]
RewriteRule (.*) - [F,L]

Jeśli chcesz zablokować kilka robotów, w miejsce „xxx” wstaw nazwę jednego, następnie  znak „|” (bez spacji przed i po nim), nazwę kolejnego i tak dalej.

Przykład:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (Amazonbot/0.1|ClaudeBot/1.0) [NC]
RewriteRule (.*) - [F,L]

Plik z formułą blokującą boty umieść w odpowiednim katalogu (np. w katalogu /public_html domeny, jeśli chcesz, by roboty nie miały dostępu do całej witryny lub w wybranym katalogu niższego rzędu, jeśli chcesz ograniczyć dostęp robotów wyłącznie do części serwisu).

Skąd wziąć nazwy botów?

Nazwy botów, które odwiedzają Twoją stronę uzyskasz, weryfikując logi WWW. Dowiedz się, jak sprawdzić logi.

Możesz również skontaktować się z BOK – prześlemy Ci wykaz botów, które najczęściej odwiedzają Twoją stronę.

  • Czy artykuł był pomocny ?
  • Tak   Nie