Możliwości pliku Robots.txt w Google

Możliwości pliku Robots.txt w Google

4 października 2021 Autor: Karol Michałowski Czas czytania: 4 min.

Jeśli chcesz, aby Google było w stanie poprawnie analizować zawartość Twojej strony internetowej, potrzebujesz dobrze zoptymalizowanego pliku robots.txt. Czym on zatem jest, jak działa i jakie ma możliwości? Tego dowiesz się w tym artykule.

Plik robots.txt – czym jest i jakie jest jego zastosowanie?

Robots.txt jest dokumentem tekstowym. Nie zawiera on znaczników HTML – stąd jego rozszerzenie .txt. Tak jak każdy inny plik, jest on hostowany na serwerze strony www. Nie jest on jednak powiązany z żadnym innym miejscem na witrynie, więc użytkownicy raczej się na niego nie natkną.

Jakie jest zastosowanie tego pliku z punktu widzenia Google? Robots.txt określa, do których adresów URL, folderów lub konkretnych plików na stronie mają dostęp roboty wyszukiwarki. Dzięki temu można zapobiec przeciążeniu witryny przez zbyt dużą ilość żądań oraz zablokować dostęp do podstron zawierających dane, których nie trzeba analizować/indeksować.

Warto zaznaczyć, że choć robots.txt zawiera konkretne instrukcje, to jednak nie może wymusić ich egzekwowania. „Dobre boty” jak crawler od Google będą przestrzegać wytycznych określonych w tym pliku. „Złe boty” jak web scrapery, które gromadzą np. dane teleadresowe zwykle zignorują plik robots.txt, albo nawet przetworzą go w celu znalezienia stron, do których dostęp został ograniczony.

Pamiętaj też, że każda subdomena potrzebuje własnego pliku robots.txt.

Robots.txt disallow – na czym polega ta funkcja?

Disallow to najczęściej spotykana w robots.txt komenda dotycząca wykluczania. Przekazuje ona informacje, aby boty nie odwiedzały zestawu podstron wymienionych w tym poleceniu.

Same strony nie są z technicznego punktu widzenia całkowicie ukryte – po prostu nie da się ich znaleźć za pomocą wyszukiwarki. Jeśli użytkownik zna dokładną ścieżkę URL prowadzącą do konkretnej podstrony, to dalej może uzyskać do niej dostęp.

Za pomocą robots.txt disallow można:

  • Wykluczyć konkretną stronę – disallow: /kategoria/podkategoria/tekst1
  • Wykluczyć cały katalog – disallow: /podkategoria
  • Wykluczyć całą stronę – disallow: /
  • Zezwolić na dostęp do całej strony – disallow:

Robots.txt – WordPress i inne platformy CMS

Jak korzystać z robots.txt, gdy prowadzisz stronę na którymś z popularnych CMS-ów? W zasadzie plik ten da się utworzyć ręcznie w dowolnym edytorze tekstu. Następnie umieść go w katalogu głównym swojego serwera – wykorzystaj w tym celu klienta FTP.

Istnieją oczywiście inne sposoby. Robots.txt w WordPress możesz także przygotować za pomocą specjalnych pluginów jak Better Robots.txt lub Robots.txt Editor. Dzięki takim narzędziom omawiany plik da się zwykle stworzyć szybciej, a przy tym skuteczniej wykrywać różne błędy. W przypadku innych CMS-ów jak Magento, Joomla czy Drupal na pewno uda Ci się znaleźć podobne rozszerzenia.

Robots.txt i Google – podsumowanie

Odpowiednio zoptymalizowany plik robots.txt powinien być częścią każdej strony internetowej. Jeśli dobrze go skonfigurujesz, zyskasz większą kontrolę nad tym, jak Google skanuje Twoją witrynę.

Udostępnij artykuł:

Dziękujemy że przeczytałaś/eś nasz artykuł do końca. Zapisz do newslettera żeby nie przegapić kolejnych artykułów.

Karol Michałowski

Autor artykułu:

Jako specjalista SEO z 15-letnim doświadczeniem w swoim portfolio posiadam pracę z portalami informacyjnymi i agencjami interaktywnymi. Obecnie pełnię rolę Head Of SEO w renomowanej agencji DNS Group.

Karol Michałowski

Autor artykułu:

Jako specjalista SEO z 15-letnim doświadczeniem w swoim portfolio posiadam pracę z portalami informacyjnymi i agencjami interaktywnymi. Obecnie pełnię rolę Head Of SEO w renomowanej agencji DNS Group.

Zapisz się do newslettera!