Robots.txt a indeksacja: typowe błędy w pliku

Spis treści

Robots.txt to plik, który ogranicza dostęp robotów do adresów URL, a błędy w nim bywają mylone z blokadą indeksacji; najczęściej decydują: 1) poprawny plik dla właściwego hosta i protokołu, 2) precyzyjne reguły Allow/Disallow oraz wzorce, 3) kontrola skutków w Google Search Console.

Szybkie fakty

Robots.txt ogranicza crawling, ale sam nie gwarantuje usunięcia adresu z wyników wyszukiwania.
Plik działa per host: subdomena i protokół mogą mieć inne reguły niż główna wersja serwisu.
W Google Search Console dostępny jest raport robots.txt, który ułatwia wykrycie błędów i w sytuacjach awaryjnych pozwala poprosić o ponowne pobranie pliku.
Statusy związane z robots.txt mogą pojawiać się w obszarze indeksowania stron, nawet gdy problem dotyczy wyłącznie dostępu do crawlowania.

Robots.txt a indeksacja: co naprawdę blokuje plik (crawl vs indeks)

Robots.txt reguluje dostęp robotów do pobierania zasobów, natomiast nie jest narzędziem do wymuszania braku indeksacji. Jeżeli adres jest zablokowany dla crawlowania, wyszukiwarka może nadal przechowywać jego wpis na podstawie wcześniejszych danych lub sygnałów zewnętrznych, ale bez możliwości odświeżenia treści.

Jeżeli celem jest blokada indeksowania, stosuje się mechanizmy typu noindex (meta robots lub nagłówek). W kontekście serwisu SEOsklep24 zagadnienie blokady indeksacji i różnic między podejściami omawia materiał o tym, jak działa noindex.

Trzy szybkie scenariusze, w których mylenie pojęć generuje kosztowne błędy:

Blokada kategorii: zbyt szerokie reguły odcinają dostęp do kluczowych list produktów, co osłabia widoczność całej struktury.
Blokada parametrów filtrów: nieprecyzyjne wzorce potrafią wyciąć nie tylko facety, ale też istotne podstrony na stałych ścieżkach.
Blokada zasobów: odcięcie plików CSS/JS może utrudnić pełne zrenderowanie strony, co utrudnia ocenę treści.

“A robots.txt is not a mechanism for keeping a web page out of Google.” Źródło: Google Search Central — Introduction to robots.txt

Typowe błędy w robots.txt (ranking) i ich skutki w SEO

Disallow: / na produkcji (staging → prod)

Najbardziej kosztowny błąd to pozostawienie pełnej blokady crawlowania po przeniesieniu serwisu z testów na produkcję. Robot przestaje pobierać strony, a odświeżanie treści w indeksie zamiera, co utrudnia diagnostykę i może szybko osłabić widoczność.

Ryzyko rośnie przy migracjach i automatycznych wdrożeniach, gdy robots.txt jest kopiowany między środowiskami bez kontroli wersji dla właściwego hosta.

Dobry vs zły przykład

Zły: zbyt szerokie Disallow blokujące całe sekcje kategorii lub listy produktów.
Dobry: blokada tylko obszarów technicznych (np. koszyk, konto) oraz parametrów śledzących, bez odcinania ścieżek generujących ruch.

Zły host / zła lokalizacja pliku / 404–5xx / przekierowania

Robots.txt powinien znajdować się w katalogu głównym hosta, którego dotyczy. Błędy typu 404 lub 5xx, nieprawidłowe przekierowania albo umieszczenie pliku na innym hoście powodują, że reguły przestają być przewidywalne i w GSC pojawiają się rozjazdy między oczekiwanym a wykrytym stanem.

Błędne wzorce (*, $): przypadkowe blokady

Wildcardy pomagają blokować parametry, ale zbyt ogólna reguła potrafi odciąć także adresy, które powinny pozostać dostępne. Najczęściej dzieje się to, gdy w serwisie mieszają się ścieżki statyczne i dynamiczne oraz różne warianty URL.

Skutek to ograniczenie dostępu robota do ważnych sekcji, a w praktyce także marnowanie budżetu crawlowania na obszarach, które nie powinny być blokowane.

Konflikt Allow vs Disallow (błędne założenia dopasowania)

W wielu wdrożeniach zakłada się, że jedna reguła „nadpisze” drugą w intuicyjny sposób. W praktyce znaczenie ma dopasowanie ścieżki, a nieprecyzyjne zestawienie reguł może blokować obszary ważne, pozostawiając dostępne tylko fragmenty nieistotne.

Blokowanie zasobów (JS/CSS) i ryzyko niepełnego renderu

Odcinanie plików CSS i JavaScript może utrudnić pełne zrenderowanie strony, zwłaszcza gdy serwis polega na renderowaniu po stronie klienta. Ryzyko rośnie, gdy blokada dotyczy katalogów wspólnych dla wielu podstron.

Blokowanie filtrów i paginacji w e-commerce (utrata zasięgu kategorii)

W sklepach filtry, sortowania i paginacja generują dużą liczbę wariantów URL. Błąd polega na hurtowym odcięciu wszystkiego, co wygląda na parametry, bez analizy, które kombinacje realnie pracują na widoczność.

Efekt uboczny to osłabienie kategorii, bo robot rzadziej je odświeża lub przestaje skutecznie odkrywać produkty w głębi list.

Traktowanie robots.txt jako „ukrywania danych” (mit)

Robots.txt nie jest mechanizmem ochrony prywatności. Plik wskazuje robotom, czego nie pobierać, ale nie zabezpiecza zasobu przed dostępem użytkownika ani przed wejściem innymi kanałami (np. przez linki); w obszarach wrażliwych potrzebne są mechanizmy kontroli dostępu po stronie serwera.

Osobny kontekst błędów i ich skutków dla statusów w raporcie indeksowania omawia wpis o komunikacie „Blocked by robots.txt”.

Tabela diagnostyczna: błąd → objaw w GSC → skutek → naprawa

Błąd w robots.txt	Objaw w GSC	Skutek SEO	Najszybsza naprawa
`Disallow: /` na produkcji	Masowe „Blocked by robots.txt”	Wygasanie odświeżania treści, spadki widoczności	Usunięcie blokady, kontrola hosta, ponowne pobranie robots.txt
Plik na złym hoście / złym protokole	Raport robots.txt wskazuje inny stan niż oczekiwany	Nieprzewidywalne crawlowanie	Upewnienie się, że plik jest w katalogu głównym właściwego hosta
404/5xx dla robots.txt	Błąd pobrania w raporcie robots.txt	Ryzyko zaburzeń w dostępie robotów	Naprawa serwera/CDN, zwrot 200 dla pliku
Nieprecyzyjny wildcard	Niespodziewane blokady wielu katalogów	Wycięcie ważnych sekcji	Zawężenie wzorca, testowanie reguł na krytycznych URL
Błędne użycie `$`	Blokada końcówek, które miały pozostać dostępne	Utrata crawlu wybranych typów podstron	Przegląd dopasowania i korekta wzorców
Konflikt Allow/Disallow	Adresy „dozwolone” nadal blokowane	Fragmentaryczne odkrywanie treści	Uproszczenie reguł i eliminacja sprzeczności
Blokada JS/CSS	Problemy z analizą/renderem (pośrednio)	Ryzyko niepełnej oceny treści	Odblokowanie zasobów wspólnych, kontrola katalogów statycznych
Hurtowa blokada filtrów/paginacji	Mniej wykrytych URL w obrębie kategorii	Osłabienie zasięgu kategorii i głębi indeksowania	Segmentacja: blokada tylko parametrów śledzących i technicznych

Jak diagnozować robots.txt krok po kroku w Google Search Console

Diagnoza powinna zaczynać się od upewnienia się, że analizowana jest właściwa właściwość (host, subdomena, protokół). Dalsze kroki polegają na połączeniu dwóch widoków: Inspekcji URL oraz raportu robots.txt.

Inspekcja URL: sprawdzenie statusu indeksowania i komunikatów dotyczących dostępu robota, w tym wariantu „Blocked by robots.txt”.
Raport robots.txt: weryfikacja ostatniego pobrania i informacji o błędach lub ostrzeżeniach.
Zmiana po stronie serwera: korekta pliku na właściwym hoście i w katalogu głównym, bez przenoszenia reguł z innych środowisk.
Test po wdrożeniu: sprawdzenie, czy nowy plik jest pobierany i czy wskazane URL-e przestały być blokowane.

“The robots.txt report … enables you to request a recrawl of a robots.txt file for emergency situations.” Źródło: Google Search Console Help — robots.txt report

Jeżeli potrzebny jest szerszy kontekst interpretacji raportów indeksowania, pomocny bywa opis raportu „Indeksowanie stron” w artykule: raport Indeksowanie stron w Google Search Console.

Pełny, bazowy proces weryfikacji indeksacji i kolejność kontroli w GSC opisuje materiał : jak sprawdzić, czy strona jest zaindeksowana w Google.

Jak bezpiecznie używać robots.txt w sklepach i serwisach z filtrami

Bezpieczne użycie robots.txt w e-commerce polega na ograniczeniu crawlu w obszarach czysto technicznych, bez odcinania ścieżek, które realnie pracują na widoczność. Zbyt agresywne reguły często uderzają w kategorie i listy produktów, czyli miejsca, w których robot powinien regularnie wracać.

Obszary, które zwykle nadają się do blokady (zależnie od architektury):

koszyk i etapy zamówienia,
panel użytkownika i strony konta,
wyszukiwarka wewnętrzna i wyniki techniczne,
parametry kampanii i śledzenia (np. tagi marketingowe),
adresy o charakterze narzędziowym (np. podglądy, endpointy techniczne).

Elementy, których blokowanie „hurtowe” najczęściej generuje straty:

kategorie i podkategorie,
strony produktów,
adresy oparte o stałe ścieżki, nawet gdy zawierają fragmenty podobne do parametrów,
paginacja, gdy pełni rolę odkrywania produktów w głębi list.

W serwisach z filtrami istotna jest spójność z kanonikalizacją i zasadami obsługi parametrów: robots.txt powinien wspierać strategię, a nie zastępować decyzje o tym, co ma być indeksowane.

FAQ

Czy robots.txt usuwa stronę z Google?

Robots.txt ogranicza pobieranie treści przez robota, ale nie jest mechanizmem wymuszającym usunięcie z wyników wyszukiwania. Jeżeli adres ma zniknąć z indeksu, potrzebne są mechanizmy typu noindex lub inne decyzje po stronie serwera. [4]

Dlaczego strona jest w indeksie mimo blokady?

Adres może pozostać w indeksie na podstawie wcześniejszych danych lub sygnałów zewnętrznych, mimo że robot nie ma dostępu do aktualnej treści. W takiej sytuacji robots.txt blokuje odświeżanie, a nie sam wpis indeksu.

Skąd się bierze „Blocked by robots.txt” w GSC?

Taki komunikat pojawia się, gdy Googlebot napotyka regułę, która uniemożliwia pobranie konkretnego adresu lub zasobu. Potwierdzenie zwykle znajduje się w Inspekcji URL oraz w raporcie robots.txt. [2]

Jak szybko naprawić błąd po wdrożeniu?

Najszybsza ścieżka to korekta pliku na właściwym hoście, a następnie sprawdzenie raportu robots.txt i w razie potrzeby poproszenie o ponowne pobranie w trybie awaryjnym. [2] Po zmianie należy zweryfikować newralgiczne adresy w Inspekcji URL.

Czy blokować CSS/JS w robots.txt?

Blokada zasobów bywa ryzykowna, gdy serwis opiera się na renderowaniu w przeglądarce. Jeżeli zasoby są wspólne dla wielu podstron, odcięcie ich może utrudnić analizę treści i układu strony.

Jak podejść do filtrów i paginacji w e-commerce?

Zalecane jest blokowanie obszarów czysto technicznych i parametrów śledzących, a unikanie odcinania kategorii, produktów i ścieżek generujących ruch. Skuteczna strategia wymaga podziału parametrów na „techniczne” i „biznesowe” oraz testu skutków w GSC.

Czy robots.txt chroni prywatne dane?

Robots.txt nie zapewnia ochrony dostępu do zasobu. Do ochrony treści potrzebne są mechanizmy autoryzacji i kontrola dostępu po stronie serwera.

Jak sprawdzić, czy robots.txt dotyczy subdomeny?

Każdy host (w tym subdomena) ma własny robots.txt w katalogu głównym. Diagnostyka powinna być wykonana dla właściwej właściwości w GSC i dla konkretnego hosta, którego dotyczy problem. [3]