Jak przeprowadzić wiosenne porządki w indeksie + zadanie praktyczne

Rozpoczęła się wiosna, a to znaczy, że czas na porządki… i to nie tylko w domu, ale również w SEO. Porządki, o których mam zamiar napisać, powinno się zrobić już na początku prac nad stroną, aby wyeliminować każdy, nawet najdrobniejszy element, który może nam potem przeszkadzać w osiągnięciu celu. Przejdźmy do konkretów.

Do sprawdzenia stanu indeksu naszych stron skorzystamy z podstawowej komendy każdego seowca, tj. site. Od razu zaznaczam, że Google mocno ogranicza liczbę podstron wyświetlonych dla ogólnego zapytania w postaci site:domena.pl i znacznie więcej informacji można się dowiedzieć, doprecyzowując zapytanie przez dodanie do niego kolejnego elementu. Dla przykładu, zapytanie site:lexy.com.pl zwraca komunikat o liczbie podstron wynoszących ok. 1500, podczas gdy po przeklikaniu wszystkich wyników jest ich tylko 231. Jeśli dopiszę do zapytania „inurl:html” (takie końcówki mają posty na blogu), wyświetli ich 228, podczas gdy wykluczając podstrony z .html („-inurl:html„) jest ich 68, co daje łącznie 296. Drugi przykład – zapytanie site:lexy.com.pl/blog/tag zwraca tylko 48 wyników, podczas gdy modyfikacja tego zapisu do następującego: site:lexy.com.pl/blog/ inurl:tag wyświetli ich aż 78.

Początkowo, kiedy potrzebujemy ogólnej orientacji w tym, co znajduje się w SERPach, wystarczy ogólne zapytanie o site dla danej domeny. Doprecyzowujemy je dopiero dla problematycznych podstron, aby wyciągnąć ich pełniejszą listę.

Co możemy znaleźć na liście zaindeksowanych podstron analizowanych przez nas serwisów?

  • różne wersje adresów, tj. z www i bez www, z HTTP i HTTPS – sprawdzimy je po wpisaniu zapytań w postaci:
    • site:www.domena.pl” (adresy z www), „site:domena.pl -inurl:www” lub „site:domena.pl -site:www.domena.pl” (adresy bez wwww);
    • site:domena.pl inurl:http” (adresy z HTTP), „site:domena.pl inurl:https” lub „site:domena.pl -inurl:http” (adresy z HTTPS). Uwaga – tu nie sprawdzi się zapytanie w postaci „site:https://domena.pl„;
  • subdomeny niespodzianki – za pomocą komendy „site:domena.pl -site:www.domena.pl” sprawdzimy wszystkie zaindeksowane subdomeny. Może się okazać, że znajdziemy tam robocze subdomeny, tj. subdomeny wykorzystywane pod roboczą wersję strony, czy też dodatkowe sklepy, blogi i inne strony, o których powinniśmy zostać poinformowani już na początku współpracy. Pamiętajmy, że grzeszki subdomeny mogą się odbić na kondycji wszystkich serwisów w ramach tej samej domeny, dlatego w szczególności analizując spadki pozycji należy zwrócić uwagę na to, która z subdomen zawiniła;
  • podstrony niespodzianki zwracające 404 – tego typu podstrony potrafią narobić sporo szkód, jeśli chodzi o spadki pozycji w całym serwisie. Nagle z dnia na dzień pojawia się setka podstron, które nigdy nie powinny się pojawić, ponieważ fizycznie nigdy nie istniały. Może to być efekt działań konkurencji, a najgorsze jest to, że ciężko jest nad tym zapanować, ponieważ tu nie wystarczy zwykła blokada w pliku robots.txt;
  • wyniki wyszukiwania, np. „site:domena.pl/search” – trzeba sprawdzić na stronie, jaki adres pojawia się po skorzystaniu z wyszukiwarki, aby wiedzieć, jaki fragment wpisać w Google”. Pamiętajmy, że Google ignoruje znaki „?”, które często wyświetlają się w adresie strony tuż przed wskazaniem wyszukiwanej frazy, dlatego też w komendach w Google trzeba posługiwać fragmentami adresów, które nie zostaną zignorowane;
    Zaindeksowane wyniki wyszukiwania
  • wyniki sortowania, np. „site:domena.pl inurl:sort” Również w  tym przypadku pamiętajmy o ignorowaniu znaku zapytania, którego nie należy wykorzystywać w zapytaniach do Google. Dlatego właśnie w tym przypadku posłużymy się fragmentem „site:domena.pl” wskazującym, jaka domena nas interesuje oraz „inurl:sort” wskazującym, że szukamy adresów z tym parametrem odpowiedzialnym za sortowanie wyników;
    Zaindeksowane wyniki sortowania
  • wyniki filtrowania, np. „site:domena.pl inurl:cena„;
    Zaindeksowane wyniki filtrowania
  • stara struktura adresów URL – aby to szybko sprawdzić, warto skorzystać np. z dodatku Scraper do Google Chrome, który opisałam w 3. punkcie zestawienia ciekawych narzędzi. Pozwoli on nam wyeksportować listę zaindeksowanych adresów, którą następnie sprawdzimy w narzędziu www.urlitor.com i zwróci nam informację o tym, które z nich mają ustawione przekierowanie 301, a które zwracają 404 – te ostatnie będą nas interesować najbardziej;
    Scraper
  • podstrony wygenerowane automatycznie – tu ciężko wskazać konkretne zapytanie, ponieważ każdy przypadek będzie indywidualny. Chodzi m.in. o podstrony wygenerowane przez wykorzystanie dziur w skryptach;
  • adresy URL komentarzy, np. „inurl:fb_comment_id„;
  • adresy otagowanych linków, np. „inurl:utm_medium„;
    Otagowane linki
  • adresy zawierające #!, np. „inurl:_escaped_fragment„;
    Zaindeksowane adresy z #!
  • inne – np. wersje do druku, wersje PDF opublikowanych artykułów, adresy z identyfikatorami sesji.

Co dokładnie jest nie tak z indeksacją tego typu adresów? Dlaczego tak ważne jest, aby zrobić porządki w indeksie?

Przede wszystkim Google nie chce w swoim indeksie duplikatów, a te właśnie tworzą się, jeśli ta sama zawartość jest dostępna pod różnymi adresami, np. adres z www, bez www itp. Problem dotyczy zarówno kopii 1:1, jak i sytuacji, w których duża część informacji pod jednym adresem pokrywa się z tymi dostępnymi na innych adresach, czyli np. w wynikach wyszukiwania czy innego rodzaju filtrowania bądź zawężania prezentowanych informacji. To nie tylko zwiększa ryzyko tego, że Google słabo ocenić cały serwis, traktując dużą część podstron jako duplicate content czy też thin content, ale także powoduje problem z kanibalizacją słów kluczowych – dochodzi do niej w sytuacji, w której wyszukiwarka nie jest pewna co do tego, który spośród kilku adresów jest bardziej trafnym wynikiem dla wyszukanej frazy.

Mamy spore możliwości, jeśli chodzi o kontrolowanie tego, co znajduje się w indeksie. Jeśli nie chcemy w nim części podstron, do dyspozycji mamy kilka rozwiązań, np.:

  • ustawienie przekierowania 301 lub użycie rel=”canonical” na docelowy adres, przy czym w niektórych przypadkach warto dodatkowo skorzystać z możliwości ustawienia preferowanej domeny w Search Console. 301 i canonical dadzą prawie taki sam efekt, jeśli chodzi o same wyszukiwarki, ponieważ oba rozwiązania powinny skutkować przeniesieniem mocy płynącej z linków i tym samym powinny doprowadzić do przejęcia pozycji przez docelowy adres. Główna różnica polega na tym, że 301 działa również na użytkowników, przekierowując ich na inny adres, podczas gdy canonicala nie zauważy nie-seowiec. Z kolei ustawienie preferowanej domeny bardziej traktowałabym jako sugestię, spodziewając się znacznie słabszego efektu działania, niż 301 czy canonical;
  • usunięcie wybranych podstron z indeksu za pośrednictwem Search Console, a konkretnie opcji Indeks Google -> Usuń adresy URL. Można w ten sposób wyindeksować pojedynczy adres, a nawet cały folder za jednym zamachem. Teoretycznie, w przypadku braku zastosowania blokady dostępu do zgłaszanych podstron lub metatagu noindex (lub none, czyli noindex + nofollow), takie podstrony mogą wrócić do indeksu, stąd też zastrzeżenie Google odnośnie tego, że jest to narzędzie służące do tymczasowego usuwania stron z indeksu. Uwaga: nie wyindeksujcie przypadkiem całej strony 😉
  • ustawienie blokady dostępu robotów do wybranych sekcji strony, przez odpowiedni wpis w pliku robots.txt – zwracam tylko uwagę na to, że blokada w robots.txt nie wyindeksuje strony, a jedynie zabroni robotom wejścia na nią i pobrania jej zawartości w celu zapisania jej kopii;
  • ustawienie nofollow w linkach do podstron, których wyszukiwarki mają nie odwiedzać – skorzystanie z tego rozwiązania nie gwarantuje nam tego, że strona nie trafi do indeksu tym bardziej, jeśli już w nim jest. Nofollow pomoże natomiast w sterowaniu wizytami robotów, ponieważ skupią się one na odwiedzaniu stron przez linki dofollow, a pominą te oznaczone atrybutem nofollow. Jeśli podstrony te nie są jeszcze zaindeksowane i żadne zewnętrzne źródła nie kierują do nich linkami dofollow, ani też w żaden inny sposób nikt nie pomógł im w dostaniu się do Google, podstrony takie nie powinny pojawić się w indeksie;
  • fizyczne usunięcie podstron – jeśli konieczne jest całkowite pozbycie się części podstron, zwróćmy uwagę na to, aby ustawić odpowiedni status, tj. 404 albo 410, a nie przypadkiem 200 z wyświetlonym komunikacie o braku wyniku – to tzw. miękkie (czy też pozorne) 404.

Zadanie praktyczne

Zadanie dla Was polega na tym, aby:

  1. przeprowadzić analizę indeksacji wybranego przez Was serwisu pod kątem tego, co NIE powinno się znajdować w Google;
  2. zaproponować techniczne rozwiązania dla każdego rodzaju podstron, które powinno się usunąć z indeksu.

Odpowiedzi zostawcie w komentarzach. Jeśli potrzebujecie drobnej zachęty, to dla autorów 5 najciekawszych przypadków mam zestawienie 20 narzędzi SEO (wersja PDF) przydatnych przy wykonywaniu audytu 😉

KATEGORIE: Optymalizacja stron
Komentarze (8)

[…] Wiosenne porządki w indeksie strony Wraz z przyjściem wiosny (choć mroźnej i deszczowej), Marta Gryszko zachęca do porządków w liście zaindeksowanych podstron. Jednocześnie podpowiada co sprawdzić i jakie działania podjąć, także w e-sklepie. […]

Dzień dobry
Czy po wykryciu błędów typu różne wersje adresu wystarczy ustawienie odpowiednich przekierowań czy należy jeszcze usuwac je poprzez narzędzie Indeks Google -> Usuń adresy URL. Jeżeli zastosujemy "tylko" przekierowanie 301 to po jakim czasie niechciane url np. z domeny bez www. zaczną znikac z indeksu google??

Fajne kombinacje zapytań, o niektórych juz zapomniałem więc dzięki za odświeżenie pamięci. Przy okazji w pierwszym wypunktowaniu w "różne wersje adresów" jest jedno "w" za dużo. Pzdr!

Witam!

Ale czy to nie jest czasami tak, że jak się strony same czasami podwójnie indeksują, w sensie bez www. i z http://www.,to czy google samo tego z czasem jakoś nie zmieni, w sensie jeden wynik zostawi zaindeksowany, a inny skasuje?
Zawsze mi się wydawalo, że na poziome algorytmu jest zapisane jakby czyszczenie wyników z tego typu duplikatów, w sumie to nawet możę i by bylo logiczne, skoro treści na takich podstronach są identyczne.

Optymalizacja crawl budget jest szczególnie istotna w dużych serwisach i sklepach internetowych. Na stronach z małą liczbą podstron roboty poradzą sobie znacznie łatwiej i nie trzeba im aż tak pomagać. 😉

Super artykuł,. mam nadzieje ze kursy będą również pomocne.

Akurat do tego siadam dla jednej z moich stron i szukałem takiej listy checkpointów, żeby sobie nieco ułatwić. Dzięki. Jak zwykle "bardzo pomocna" 🙂

Bardzo przydatny artykuł. Krótko, treściwie i na temat 🙂 Więcej takich artykułów poproszę 🙂 Pozdrawiam.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Copyright 2017 Lexy's SEO blog. All Right Reserved.