Jak działa plik robots.txt?
Przykłady zawartości dla plików robots.txt
Cała strona WWW będzie indeksowana przez roboty (tak jakby nie było pliku “robots.txt”):
Allow:
Cała strona WWW nie będzie indeksowana:
Disallow: /
Indeksowane nie będą tylko foldery “/images” i “/private”:
Disallow: /images/
Disallow: /private/
Indeksowany nie będzie tylko plik “file.html” w katalogu “/directory”:
Disallow: /directory/file.html
O czym należy pamiętać podczas korzystania z pliku robots.txt?
-
Roboty, które są odpowiedzialne za skanowanie w poszukiwaniu dziur w zabezpieczeniach stron WWW mogą ignorować zapisy z pliku. Podobnie zachowują się automaty, które gromadzą adresy email i inne dane teleadresowe.
-
Pamiętaj, że zawartość pliku jest publicznie dostępna, a plik “robots.txt” nie jest metodą zabezpieczenia dostępu do zasobów.
-
Niektóre roboty mogą zbyt szybko pobierać strony WWW do ich sprawdzenia, co może znacząco obciążyć serwer. W tym przypadku zalecane jest zablokowanie user agent takich robotów lub ich adresów IP.
-
Pamiętaj, że wyszukiwarka Google nie będzie pobierać ani indeksować zawartości stron WWW, które zostały zablokowane w pliku “robots.txt”, ale może indeksować te adresy URL, jeśli zostaną znalezione na innych stronach WWW w sieci Internet. W związku z tym adres URL takiej strony WWW oraz prawdopodobnie inne powszechnie dostępne informacje, np. teksty kotwicy mogą zostać wyświetlone w wynikach wyszukiwania.
-
Plik “robots.txt” jest potrzebny tylko w przypadku, gdy witryna zawiera treść, którą chcesz ukryć przed wyszukiwarkami internetowymi (np. Google). Jeśli wyszukiwarki mają indeksować całą stronę WWW, to plik “robots.txt” jest całkowicie zbędny!
Odbierz 25 zł do wydania na empik.com
Polecaj usługi home.pl i zdobywaj za każde polecenie kupon o wartości 25zł do wydania na empik.com