Roboty indeksujące mają sporo pracy. W ciągu każdej godziny skanują miliony przeróżnych podstron, by uplasować je na odpowiedniej pozycji w wyszukiwarce Google. Możesz im ułatwić ten proces, przy okazji zadbać o SEO Twojej witryny.
Plik robots.txt pozwoli Ci wskazać, które podstrony chcesz uwzględniać w wynikach wyszukiwania. Dowiedz się, dlaczego warto go stworzyć i jak zrobić to skutecznie.
Do czego służy plik robots.txt i dlaczego jest ważny?
Roboty wyszukiwarek domyślnie indeksują wszystkie podstrony znajdujące się w obrębie Twojej witryny. Chyba, że poinstruujesz je, żeby robiły inaczej.
Do tego właśnie służy plik robots txt. To niepozorny, zwykły plik tekstowy, który posiada bardzo dużą moc. Umożliwia on wyłączenie wybranych podstron w Twoim serwisie z indeksowania.
Dlaczego jego posiadanie i poprawne uzupełnienie jest tak ważne?
Gdy Google natrafi w dowolny sposób na Twoją stronę, w pierwszej kolejności sprawdza plik robots.txt. Tam roboty weryfikują, które zasoby mogą odwiedzić i zindeksować. Co ważne, swojej znajomości z robots.txt boty nie kończą na jednej wizycie. Regularnie odwiedzają ten plik, by sprawdzić, czy nie zaszły jakieś zmiany w wytycznych.
A może zastanawiasz się, dlaczego miałbyś ograniczać dostęp do jakichkolwiek podstron w Twojej domenie? To szczególnie ważne w przypadku dużych serwisów internetowych (np. z branży e-commerce). Zasoby Google w zakresie indeksowania są ograniczone – ich możliwości określa się mianem crawl budgetu. Nie ma więc sensu, by roboty traciły czas np. na strony logowania czy takie, które zawierają regulaminy.
Zawartość pliku robots.txt
Plik robots.txt składa się z zaledwie kilku elementów. To przede wszystkim dyrektywy zezwalające i blokujące dostęp, a także oznaczenia robotów, których dotyczą. Oczywiście, czym więcej adresów URL będziesz tam uwzględniać, tym plik będzie dłuższy.
Przyjrzyjmy się najważniejszym poleceniom zamieszczanym w robots.txt:
Dyrektywa Disallow
Dyrektywa Disallow służy do zablokowania dostępu robotom Google do danego adresu URL, katalogu, ścieżki czy pliku.
Musisz wiedzieć, że używając Disallow w ten sposób: Disallow: /przyklad, wyłączasz z indeksowania podstrony:
- https://nazwa-strony.pl/przyklad/
- https://nazwa-strony.pl/przyklady/
- https:/nazwa-strony.pl/przyklad/przyklad2
Allow
Roboty domyślnie traktują każdą stronę tak, jak gdyby miała ustawioną dyrektywę Allow. Po co zatem w ogóle ją stosować?
Jej użycie jest wskazane do tworzenia tzw. wyjątków. Załóżmy, że zablokowałeś całą sekcję na stronie. Chcesz jednak, aby roboty indeksowały jedną, konkretną podstronę, znajdującą się w jej obrębie. Właśnie w takim wypadku stosuje się dyrektywę Allow.
W praktyce wygląda to następująco:
User-agent: *
Disallow: /przyklad/
Allow: /przyklad/wyjatek
Instrukcje User-agent
Robots.txt pozwala zwracać Ci się do różnych robotów skanujących. Warto zdawać sobie sprawę, że każde połączenie ze stroną jest realizowane za pośrednictwem jakiegoś programu. Te oprogramowania mają swoje oznaczenia, które określa się mianem User-agent. Dzięki temu za pomocą pliku możesz tworzyć osobne instrukcje dla poszczególnych botów.
Oto kilka przykładów user agentów:
- Googlebot (User-agent: Googlebot)
- Googlebot Image (User-agent Googlebot-Image)
- Googlebot News – Googlebot-News
Wskazanie lokalizacji mapy witryny (sitemap)
W robots.txt możesz umieścić link do sitemap.xml, czyli mapy strony XML. Przypomnimy, że jest to plik, który zawiera listę adresów, którą roboty powinny uwzględniać w indeksie wyszukiwarki.
By boty mogły ją odnaleźć, w robots.txt umieść następującą komendę:
sitemap: https://www.nazwa-strony.pl/sitemap.xml
Przykładowe reguły w pliku robots txt
Wiesz już, czym jest robots.txt. Pora się przyjrzeć jego konkretnym zastosowaniu.
- Reguła, którą możesz wykorzystać, jeżeli nie chcesz blokować dostępu do żadnej strony w Twoim serwisie:
User-agent: *
Allow: /
- Reguła blokująca dostęp wszystkim robotom do wszystkich stron:
User-agent: *
Disallow: /
- Blokada całej sekcji na stronie:
User-agent: *
Disallow: /sekcja/
- Blokada całej sekcji z wyjątkiem jednej podstrony:
User-agent: *
Disallow: /sekcja/
Allow: /sekcja/wyjatek
- Blokada adresów z parametrem:
Disallow: /*?parametr
Testowanie pliku robots.txt
Możliwość przeprowadzenia testu pliku robots.txt pozwoli Ci się upewnić, że został on skonfigurowany poprawnie. Pomoże Ci w tym Google Search Console (GSC).
Wystarczy, że zalogujesz się do narzędzia i przejdziesz pod ten adres: https://www.google.com/webmasters/tools/robots-testing-tool. Tester pliku robots.txt pokaże Ci, czy dostęp robotów Google do określonych adresów URL został skutecznie zablokowany.
Testowanie polega na wpisywaniu interesujących Cię adresów URL do narzędzia. Program działa dokładnie tak, jak roboty skanujące – odczytuje plik robots.txt i weryfikuje, czy dana podstrona została zablokowana przed indeksacją.
Gdzie umieścić plik robots.txt?
Plik robots.txt umieszcza się w głównym katalogu strony. Powinien się on znajdować pod adresem: https://nazwa-strony.pl/robots.txt.
Łatwo możesz więc sprawdzić, czy w przypadku danego serwisu taki plik już istnieje. Jeżeli tak jest, możesz go edytować lub zastąpić nowym.
O czym musisz pamiętać, tworząc plik robots.txt?
Łap garść wskazówek na zakończenie:
- Nie umieszczaj więcej niż jednego pliku w obrębie domeny.
- Musisz liczyć się z tym, że nie wszystkie boty wyszukiwarek internetowych czy narzędzi stosują się do wytycznych robots.txt.
- Google uwzględnia wytyczne z pliku. Jednak jeżeli dotrze do podstrony, której nie chcesz indeksować, z innego miejsca, może mimo wszystko uwzględnić ją w wynikach wyszukiwania – jeżeli uzna ją za wartościową.
- Stwórz plik robots txt nawet, jeżeli chcesz, aby indeksowana była cała zawartość strony. Zasygnalizujesz wtedy Google, że podchodzisz do optymalizacji z należytą starannością i unikniesz ewentualnych błędów.