Jak zrobić wiosenne porządki w Google: wskazówki + zadanie praktyczne

Mamy już wiosnę, a to znaczy, że czas na porządki i to nie tylko w domu, ale również w… Google. Tak, tak – dzisiaj posprzątamy wyniki wyszukiwania ze zbędnych podstron, które zostały niepotrzebnie zaindeksowane. Działania takie należy przeprowadzić zwłaszcza na początku prac nad stroną, aby wyeliminować każdy element, który może mieć negatywny wpływ na widoczność witryny.

Dlaczego tak ważne jest, aby zrobić porządki w Google?

Wyszukiwarki lubią mieć w swoim indeksie tylko wyniki unikalne, zróżnicowane i zarazem o wysokiej jakości. Również w naszym interesie jest, aby ich roboty poświęciły cały czas spędzony na naszej stronie na odświeżaniu kopii najważniejszych podstron i indeksowaniu struktury, ale tylko tej, na którą chcemy skierować ruch organiczny.

W związku z powyższym Google rekomenduje, aby nie indeksować m.in. wyników wyszukiwania ani filtrowania, ponieważ nie wnoszą one dodatkowej wartości poza inną prezentacją tych samych treści – mamy wtedy do czynienia z tzw. duplicate content. Jeśli nawet je zaindeksuje, nie oceni ich wysoko, a zatem sztuczne nabijanie liczby podstron w niczym nam nie pomoże. Co więcej, duża liczba zaindeksowanych podstron o niskiej jakości (to tzw. thin content) może negatywnie wpłynąć na ocenę i widoczność całej strony.

Powinniśmy więc zadbać o porządek w Google, dlatego zaczniemy od zabawy w SEO detektywa i poszukamy podstron, które nie powinny być indeksowane.

Jak szukać podstron do wyindeksowania

Zacznijmy od sprawdzenia struktury strony WWW i wskazania charakterystycznych fragmentów URL, które występują w adresach podstron niechcianych w indeksie Google. W celu weryfikacji stanu indeksu analizowanej witryny skorzystamy z podstawowej komendy każdego seowca, tj. site i połączymy je z innymi operatorami Google. Zazwyczaj ogólna komenda pokazuje mniej dokładne dane niż ta bardziej doprecyzowana.

Oto kilka przykładów:

  • site:lexy.com.pl – zwraca liczbę zaindeksowanych podstron w ramach mojej domeny i wynosi ona 577;
  • site:lexy.com.pl/blog/ – jw., tyle że zwróci wyniki dla samego bloga, których powinno być o 1 podstronę mniej niż w pierwszym zapytaniu; jak już wspomniałam, ogólne zapytanie pokazuje mniej danych, co widać na tym przykładzie, który zwrócił 730 podstron;
  • site:lexy.com.pl inurl:blog – to zapytanie teoretycznie powinno zwrócić te same wyniki, co wyżej, jednak liczby te nieco się od siebie różnią;
  • site:lexy.com.pl inurl:add-to-cart – tutaj już wchodzimy w zapytania o formaty adresów specyficzne dla opcji, które nie powinny być indeksowane; na tym przykładzie są to podstrony dodania do koszyka wybranego produktu w sklepie, których nie potrzebujemy w indeksie Google;
  • site:lexy.com.pl filetype:html – pokaże wyniki zawężone do tych, których rozszerzenie to .html, a zatem na przykładzie mojej strony będą to wszystkie wpisy na blogu; warto posprawdzać w ten sposób, czy nie zaindeksowały się żadne pliki pdf, docx czy xls;
  • site:lexy.com.pl -filetype:html – to z kolei przeciwieństwo poprzedniego przykładu, ponieważ ze zwróconych wyników wykluczamy  te o rozszerzeniu .html;
  • site:lexy.com.pl/blog/ inurl:/wp-content/ – w ten sposób możemy sprawdzić zaindeksowane pliki, w tym te dotyczące wtyczek na blogu.

Początkowo, kiedy potrzebujemy ogólnej orientacji w tym, co znajduje się w SERPach, wystarczy ogólne zapytanie o site dla danej domeny. Doprecyzowujemy je dopiero dla problematycznych podstron, aby wyciągnąć ich pełniejszą listę. Nie powinno nas dziwić, że Google co jakiś czas wyświetli nam CAPTCHĘ w ramach zabezpieczeń przed nietypowymi zapytaniami.

Najlepiej od razu przescrollować wyniki na sam dół i zobaczyć, co kryje się na ich końcu, zwłaszcza pod linkiem informującym o ukryciu wyników uzupełniających. To tam najczęściej trafiają podstrony, które będziemy chcieli wyindeksować.

Aby pokazać najbardziej trafne wyniki, pominęliśmy kilka pozycji bardzo podobnych do 63 już wyświetlonych.
Jeśli chcesz, możesz powtórzyć wyszukiwanie z uwzględnieniem pominiętych wyników.

Takie poszukiwania mogą doprowadzić nas do następujących wyników:

  • różne wersje adresów, tj. z WWW i bez WWW, z HTTP i HTTPS – sprawdzimy je po wpisaniu zapytań w postaci:
    • site:www.lexy.com.pl – zaindeksowane adresy z WWW;
    • site:lexy.com.pl -inurl:www lub site:domena.pl -site:www.lexy.com.pl – adresy z wykluczeniem tych z WWW;
    • site:lexy.com.pl inurl:http – adresy z HTTP; efektu tego nie uzyskamy zapytaniem site:http://www.lexy.com.pl;
    • site:lexy.com.pl inurl:https lub site:lexy.com.pl -inurl:http – adresy z HTTPS;
  • subdomeny niespodzianki – za pomocą komendy site:lexy.com.pl -site:www.lexy.com.pl sprawdzimy zaindeksowane subdomeny. Może się okazać, że znajdziemy tam robocze adresy URL, tj. subdomeny wykorzystywane pod roboczą wersję strony, czy też dodatkowe sklepy, blogi i inne strony, o których powinniśmy zostać poinformowani już na początku współpracy. Pamiętajmy, że grzeszki subdomeny mogą się odbić na kondycji wszystkich serwisów w ramach domeny, dlatego zwłaszcza podczas analizy spadków pozycji należy zwrócić uwagę na to, która z subdomen zawiniła;
  • wyniki wyszukiwania – trzeba sprawdzić, jaki format adresu mają wyniki wyszukiwania na stronie, aby wiedzieć, co wyszukać w Google. Pamiętajmy, że wyszukiwarka ignoruje znaki „?”, które często wyświetlają się w adresie strony tuż przed wskazaniem wyszukiwanej frazy, dlatego też w komendach w Google trzeba się posługiwać fragmentami adresów z wykluczeniem ignorowanych znaków, np. dopisując inurl:search lub inurl:query;
    Zaindeksowane wyniki wyszukiwania
  • wyniki sortowania – w przypadku strony sklepu najczęściej wystarczy dopisanie inurl:sort, który wskaże na wyszukiwanie adresów URL z parametrem odpowiedzialnym za sortowanie wyników;
    Zaindeksowane wyniki sortowania
  • wyniki filtrowania;
    Zaindeksowane wyniki filtrowania
  • stara struktura adresów URL;
  • podstrony wygenerowane automatycznie – tu ciężko wskazać konkretne zapytanie, ponieważ każdy przypadek będzie indywidualny; chodzi m.in. o podstrony wygenerowane przez wykorzystanie dziur w skryptach, które nawet po usunięciu błędu pozostaną na długo w indeksie i będą zwracać nagłówek 404;
  • adresy URL komentarzy – do standardowej komendy dopisujemy np. inurl:fb_comment_id;
  • adresy otagowanych linków – w tym przypadku dopiszemy np. inurl:utm_source;
  • adresy zawierające #! – dopiszemy wtedy inurl:_escaped_fragment;

Zaindeksowane adresy z #!

  • inne – np. wersje do druku, wersje PDF opublikowanych artykułów, adresy z identyfikatorami sesji.

Jak wyindeksować niechciane podstrony z Google?

Jak już pisałam, Google nie chce w swoim indeksie duplikatów, a te właśnie tworzą się, jeśli ta sama zawartość jest dostępna pod różnymi adresami, np. adres z WWW, bez WWW itp. Problem dotyczy zarówno kopii 1:1, jak i sytuacji, w których duża część informacji pod jednym adresem pokrywa się z tymi dostępnymi na innych adresach, czyli np. w wynikach wyszukiwania czy innego rodzaju filtrowania bądź zawężania prezentowanych informacji. To nie tylko zwiększa ryzyko tego, że Google słabo oceni cały serwis, traktując dużą część podstron jako duplicate content czy też thin content, ale także powoduje problem z kanibalizacją słów kluczowych. Dochodzi do niej, kiedy wyszukiwarka nie jest pewna co do tego, który spośród kilku adresów jest bardziej trafnym wynikiem dla wyszukanej frazy – np. podstronę kategorii czy taga na blogu.

Mamy kilka możliwości w zakresie kontrolowania tego, co znajduje się w indeksie. Jeśli nie chcemy w nim części podstron, do dyspozycji mamy następujące rozwiązania:

  • ustawienie przekierowania 301 lub użycie rel=”canonical” na docelowy adres – obydwa rozwiązania powinny skutkować przeniesieniem na preferowany przez nas adres mocy płynącej z linków. Główna różnica polega na tym, że 301 działa również na użytkowników, przekierowując ich na inny adres URL, podczas gdy canonicala nie zauważy przeciętny internauta;
  • ręczne zgłoszenie w Google Search Console – chodzi o opcję dostępną w zakładce Indeksowanie ⇒ Usunięcia. Można w ten sposób wyindeksować pojedynczy adres, a nawet cały folder za jednym zamachem. Teoretycznie, w przypadku braku zastosowania blokady dostępu do zgłaszanych podstron lub metatagu noindex (lub none, czyli noindex + nofollow), takie podstrony mogą wrócić do indeksu po upłynięciu 6 miesięcy od zgłoszenia;
    Opcja tymczasowego usunięcia adresu URL w GSC

    źródło: Google Search Console – zgłoszenie usunięcia

  • blokada dostępu ustawiona w pliku robots.txt – rozwiązanie to nie zabezpieczy jednak przed indeksacją adresu. Jego celem jest zablokowanie dostępu robota przed wejściem na daną podstronę, pobraniem jej kopii i wyświetleniem w wynikach wyszukiwania jej wyniku z zajawką pobraną z zawartości strony. Mimo wszystko dla struktury takiej jak wyniki wyszukiwania lub sortowania warto z niej skorzystać. Dzięki takiej blokadzie roboty wyszukiwarek skupią się na skanowaniu głównej struktury witryny zamiast tej, która nie prezentuje unikalnej zawartości. Niestety nie da się jednocześnie zablokować robotom dostępu do wybranych sekcji strony i zapobiec ich wyświetlaniu w SERP-ie. Po szczegóły na ten temat odsyłam do mojego wpisu na blogu SeoStation: Co pierwsze: robots.txt czy META);
  • stosowanie nofollow – chodzi o w użycie nofollow w linkach do podstron, których roboty wyszukiwarek nie powinny odwiedzać. Oznaczenie takie dosłownie oznacza: nie podążaj. Skorzystanie z tego rozwiązania nie gwarantuje jednak tego, że strona nie trafi do indeksu, zwłaszcza jeśli już się w nim znalazła. Niestety nie jest to rozwiązanie w 100% pewne, ponieważ w 2019 r. Google zmieniło podejście do nofollow i od tej pory zastrzega, że w niektórych przypadkach może podążyć za takimi linkami. Więcej na ten temat opisałam we wpisie: Historia linków nofollow, ugc i sponsored;
  • fizyczne usunięcie podstron – jeśli konieczne jest całkowite pozbycie się części podstron, należy zwrócić uwagę na to, aby ustawić odpowiedni status, tj. 404 albo 410, a nie przypadkiem 200 z wyświetlonym komunikacie o braku wyniku – to tzw. miękkie (czy też pozorne) 404. Warto zweryfikować to uruchamiając z poziomu przeglądarki narzędzia dla dewelopera – w Google Chrome można skorzystać w tym celu ze skrótu Ctrl + Shift + I albo wejść w ustawienia w zakładkę Więcej narzędziNarzędzia dla dewelopera.

Zadanie praktyczne

Teraz Ty wciel się w rolę detektywa.

Wejdź na swoją stronę i dokładnie sprawdź jej strukturę. Czy ma opcje filtrowania, sortowania albo wyszukiwania? Spisz charakterystyczne dla nich fragmenty adresów URL i przeszukaj Google w poszukiwaniu podstron, które powinieneś… posprzątać.

Zdecyduj, jaki sposób będzie najlepszy, aby z jednej strony usunąć niechciane wyniki wyszukiwania, a z drugiej – zabezpieczyć się przed ich indeksacją na przyszłość. Podziel się efektami w komentarzu do tego wpisu.

PS Ten wpis został opublikowany w 2017 r. i zaktualizowany w 2023 r., aby rozwinąć temat i zapewnić zgodność informacji ze stanem aktualnym. Aby nie przegapić kolejnych, śledź mój FanPage

KATEGORIE: !Wyróżnione, Optymalizacja stron
Comments (12)

[…] Wiosenne porządki w indeksie strony Wraz z przyjściem wiosny (choć mroźnej i deszczowej), Marta Gryszko zachęca do porządków w liście zaindeksowanych podstron. Jednocześnie podpowiada co sprawdzić i jakie działania podjąć, także w e-sklepie. […]

Dzień dobry
Czy po wykryciu błędów typu różne wersje adresu wystarczy ustawienie odpowiednich przekierowań czy należy jeszcze usuwac je poprzez narzędzie Indeks Google -> Usuń adresy URL. Jeżeli zastosujemy "tylko" przekierowanie 301 to po jakim czasie niechciane url np. z domeny bez www. zaczną znikac z indeksu google??

Fajne kombinacje zapytań, o niektórych juz zapomniałem więc dzięki za odświeżenie pamięci. Przy okazji w pierwszym wypunktowaniu w "różne wersje adresów" jest jedno "w" za dużo. Pzdr!

Witam!

Ale czy to nie jest czasami tak, że jak się strony same czasami podwójnie indeksują, w sensie bez www. i z http://www.,to czy google samo tego z czasem jakoś nie zmieni, w sensie jeden wynik zostawi zaindeksowany, a inny skasuje?
Zawsze mi się wydawalo, że na poziome algorytmu jest zapisane jakby czyszczenie wyników z tego typu duplikatów, w sumie to nawet możę i by bylo logiczne, skoro treści na takich podstronach są identyczne.

Optymalizacja crawl budget jest szczególnie istotna w dużych serwisach i sklepach internetowych. Na stronach z małą liczbą podstron roboty poradzą sobie znacznie łatwiej i nie trzeba im aż tak pomagać. 😉

Super artykuł,. mam nadzieje ze kursy będą również pomocne.

Akurat do tego siadam dla jednej z moich stron i szukałem takiej listy checkpointów, żeby sobie nieco ułatwić. Dzięki. Jak zwykle "bardzo pomocna" 🙂

Bardzo przydatny artykuł. Krótko, treściwie i na temat 🙂 Więcej takich artykułów poproszę 🙂 Pozdrawiam.

Dalej nie wiem jak to zrobic, mam taki bałagan ze szok. Pojawiają mi sie strony z label, same daty, i inne takie ponad 15 tys wykluczonych a stron jest tylko 80 grrrr messsssss ale nikt nie pisze jak dokładnie to zrobic

Ciekawy artykuł. Mój blog jeszcze nie jest tak rozbudowany ale na razie Google search console indeksuję tylko 11 z 32 podstron, czyli wyklucza podstrony powstałe w wyniku dodania tagów, które mają duble content.

Warto przepuścić serwis przez crawler, np. audyt w Ahrefs lub DeepCrawl, ContentKing itd. Ilość błędów, która może zostać wykryta na pewno wpłynie na ocenę w oczach algorytmów Google.

Nie zdawałem sobie sprawy, że jedna taka rzecz może tyle zmienić. Usunąć śmieci! Cenny artykuł 🙂

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Witryna wykorzystuje Akismet, aby ograniczyć spam. Dowiedz się więcej jak przetwarzane są dane komentarzy.

Copyright 2005-2023 SEO blog Lexy. All Right Reserved.