Plik robots.txt jest jednym z mechanizmów „Robots Exclusion Protocol”, który został stworzony w celu informowania automatów (botów) o tym, czego nie powinny robić na stronie WWW. Przykładowo, nie wszyscy właściciele stron WWW chcą, aby ich projekt WWW był widoczny w wynikach wyszukiwania (np. w wyszukiwarce Google). Plik robots.txt powinien zostać umieszczony w katalogu, do którego została przekierowana domena internetowa (jest to tzw. katalog główny domeny).
SPIS TREŚCI
Jak działa plik robots.txt?
Plik „robots.txt” ogranicza dostęp do Twojej strony WWW robotom wyszukiwarek, które przeszukują Internet. Dla przykładu możesz zabronić indeksowanie całej lub tylko wybranej części Twojej strony WWW!
Plik robots.txt jedynie informuje o odpowiednim zachowaniu, nie wymusza go zaś w żaden sposób. Wszystkie uznane roboty (np. roboty popularnych wyszukiwarek internetowych) będą przestrzegać zasad zawartych w pliku robots.txt, jednak niektóre roboty mogę je zignorować.
Przykłady zawartości dla plików robots.txt
Cała strona WWW będzie indeksowana przez roboty (tak jakby nie było pliku „robots.txt”):
Allow:
Cała strona WWW nie będzie indeksowana:
Disallow: /
Indeksowane nie będą tylko foldery „/images” i „/private”:
Disallow: /images/
Disallow: /private/
Indeksowany nie będzie tylko plik „file.html” w katalogu „/directory”:
Disallow: /directory/file.html
O czym należy pamiętać podczas korzystania z pliku robots.txt?
-
Roboty, które są odpowiedzialne za skanowanie w poszukiwaniu dziur w zabezpieczeniach stron WWW, mogą ignorować zapisy z pliku. Podobnie zachowują się automaty, które gromadzą adresy email i inne dane teleadresowe.
-
Pamiętaj, że zawartość pliku jest publicznie dostępna, a plik „robots.txt” nie jest metodą zabezpieczenia dostępu do zasobów.
-
Niektóre roboty mogą zbyt szybko pobierać strony WWW do ich sprawdzenia, co może znacząco obciążyć serwer. W tym przypadku zalecane jest zablokowanie user agent takich robotów lub ich adresów IP.
-
Pamiętaj, że wyszukiwarka Google nie będzie pobierać ani indeksować zawartości stron WWW, które zostały zablokowane w pliku „robots.txt”, ale może indeksować te adresy URL, jeśli zostaną znalezione na innych stronach WWW w sieci Internet. W związku z tym adres URL takiej strony WWW oraz prawdopodobnie inne powszechnie dostępne informacje, np. teksty kotwicy mogą zostać wyświetlone w wynikach wyszukiwania.
-
Plik „robots.txt” jest potrzebny tylko w przypadku, gdy witryna zawiera treść, którą chcesz ukryć przed wyszukiwarkami internetowymi (np. Google). Jeśli wyszukiwarki mają indeksować całą stronę WWW, to plik „robots.txt” jest całkowicie zbędny!