Od czasu do czasu trafiam na pomocne wskazówki od pracowników Google. Postanowiłam zebrać je w jednym wpisie, skupiając się przede wszystkim na wypowiedziach Johna Muellera. Większość informacji została znaleziona na blogu www.seroundtable.com i jego profilu na twitterze, a dotyczą one technicznych zagadnień. Na liście znajdą się również informacje od Matta Cuttsa, pochodzące głównie z YouTube.
- w przypadku blokady dostępu do katalogu, który ma zostać udostępniony, plik robots.txt należy zaktualizować co najmniej dobę przed dodaniem jakiejkolwiek treści, gdyż jest on zazwyczaj aktualizowany raz na dobę;
- podstrony blokowane w pliku robots.txt mogą zostać zaindeksowane w przypadku, gdy prowadzą do nich linki;
- odradza się stosowanie tzw. soft-404, czyli podstron informujących o braku strony, ale zwracających błędny kod statusu (200);
- teoretycznie, jest niewielkie prawdopodobieństwo tego, że konkurencja może zaszkodzić innej stronie linkami;
- kiedyś 404 i 410 były traktowane praktycznie tak samo, jednak od jakiegoś czasu zaleca się stosowanie 410 do poinformowania o tym, że podstrona została usunięta trwale i nigdy więcej nie będzie dostępna. Takie podstrony powinny być wyindeksowywane dużo szybciej niż te z 404, która może wynikać np. z chwilowego błędu i na którą reakcja Google nie powinna być natychmiastowa;
- odradza się stosowanie przekierowań meta refresh;
- odradza się również stosowanie noscript ze względu na wcześniejsze nadużywanie tego znacznika;
- w przypadku, gdy w serwisie znajdują się teksty pisane w różnym języku, zalecane jest, aby nie mieszać ich na jednej podstronie, mimo że w większości takich przypadków przypisanie języka do danej podstrony nie powinno stanowić dla Google problemu;
- zapisy w metatagu „robots” sumują się, ale się nie nadpisują. Oznacza to, że jeśli pierwszy zapis zawiera „noindex”, a drugi „index, follow” to robot odbierze to jako „noindex, follow”;
- przeindeksowanie plików PDF trwa dłużej niż w przypadku HTML’a;
- Google uzależnia częstotliwość pobierania mapy strony od tego, jak często jest ona aktualizowana. Jeśli np. na blogu dotychczas pojawiał się 1 wpis miesięcznie, a w pewnym momencie wpisy będą publikowane co kilka dni, mapa strony również będzie odwiedzana częściej;
- canonical nie powinien być stosowany dla podstron paginacji ze względu na to, że wpis ten mógłby uniemożliwić robotom dostęp do podstron podlinkowanych z nich;
- dla ustalenia geolokalizacji strony dużo ważniejsze jest posiadanie krajowej domeny (np. .pl) od lokalizacji serwera;
- w przypadku problemu duplicate content na stronie wynikającego z tworzenia dla każdego pliku dokumentu PDF, powinno się zablokować ich indeksację. Mimo wszystko, nawet jeśli się tego nie zrobi, Google powinno albo pokazywać wersję html’ową wyżej w wynikach niż pdf’ową, albo tej drugiej nie pokaże wcale;
- nagłówek 503 sprawia, że Google nie indeksuje wersji strony z informacją o jej niedostępności, tylko wraca później aby ją przeindeksować;
- nofollow nie powinno się w ogóle stosować w linkach wewnętrznych;
- podejrzana historia domeny z tzw. „drugiej ręki” może wpłynąć negatywnie na przyszłość strony;
- ustawienie przekierowania 301 w narzędziach dla webmasterów jest najszybszym sposobem na poinformowanie Google o zmiany domeny;
- systematyczna aktualizacja zawartości strony nie jest wymogiem, gdyż nie na każdej stronie istnieje uzasadnienie ciągłego dodawania nowych treści;
- nie powinno się publikować naraz ogromnej ilości podstron w nowym serwisie, gdyż może to skutkować jej dokładnym przejrzeniem – dotyczy to jednak naprawdę dużych liczb;
- strona może zostać sprawdzona także w sytuacji, w której nagle zaczyna na nią przekierowywać wiele innych domen;
- Google jest także podejrzliwe wobec stron blokujących dostęp do plików CSS i JS.