Budżet zasobów indeksowania (ang. crawl budget) określa, jak szybko i ile podstron strony internetowej wyszukiwarka zaindeksuje w indeksie Google. Zależy to przede wszystkim od ilości zasobów strony, które algorytm uzna za użyteczne, oraz od ilości indeksów obsługiwanych przez serwer. Stopień indeksowania nie przekłada się bezpośrednio na lepsze pozycje w rankingu. Jeśli jednak strona internetowa nie jest indeksowana, nie będziemy mieli odpowiednich zasobów by w ogóle zaistnieć w wyszukiwarce Google. Crawl budget nie będzie tematem tabu dla wielu witryn. W kilku przypadkach, warto wziąć ten czynnik na tapet. Przyjrzyjmy się niektórym z tych przypadków.
- Kiedy należy martwić się o crawl budget?
- Jak sprawdzić poziom indeksowania
- Co składa się na crawl?
- Jak Google dostosowuje parametry indeksowania?
- Jak przyspieszyć indeksowanie w Google?
- Jak spowolnić indeksowanie w Google?
Kiedy należy martwić się o crawl budget?
Temat latami stawał się coraz istotniejszy. Stanowi on jednak kluczowy element techniczny w przypadku popularnych, dużych stron oraz nowych serwisów online. Niezbyt dobrze podlinkowane (działania off-site) lub słabe strukturalnie strony, napotykają problem z zachęceniem algorytmów do ich indeksowania.
Crawl budget (pol. budżet indeksowania) może być problemem w przypadku nowszych witryn, zwłaszcza tych z dużą ilością podstron. Serwer może spokojnie obsłużyć większą aktywność indeksowania, jednak w momencie gdy strona internetowa jest nowa i dodatkowo niezbyt popularna, wyszukiwarka może zwyczajnie nie chcieć jej indeksować. Tak właśnie można zdefiniować problem z indeksowaniem witryny. Algorytmy Google mogą nie wiedzieć, czy treści są wartościowe, przez co ograniczą się do indeksowania małego procenta wszyskich zasobów.
Crawl budget jest problematyczny w przypadku większych witryn z milionami podstron lub serwisów online, które są często aktualizowane. Dotyczy to w większości przypadków średnich lub dużych platform e-commerce . Ogólnie rzecz biorąc, jeśli posiadamy wiele podstron, które nie są indeksowane lub odpowiednio aktualizowane tak często, jak tego sobie życzymy, warto rozważyć przyspieszenie indeksowania. Porozmawiamy o tym, jak to zrobić w dalszej części artykułu.
Jak sprawdzić aktywność indeksowania
Jeśli chcesz zobaczyć przegląd aktywności indeksowania Google i wszelkich wykrytych przez nie problemów, najlepiej zajrzeć do raportu Statystyki indeksowania w Google Search Console.
Tu znajdziemy różne raporty, które pomogą zidentyfikować zmiany w sposobie indeksowania, odczytać czy są jakieś problemy z indeksowaniem lub pozyskać informacje o tym, jak Google indeksuje stronę internetową. Koniecznie należy sprawdzić wszystkie oznaczone stany indeksowania. Aby lepiej je zrozumieć, odsyłamy do dokumentacji dla developerów od Google.
W identyfikacji problemu pomogą nam sygnatury czasowe ostatniego indeksowania stron.
Istnieje możliwość, żeby poznać aktywność wszystkich botów i użytkowników. Należy skorzystać z dostępu do swoich plików dziennika. W zależności od hostingu i konfiguracji, wykorzystane narzędzia mogą się różnić: Awstats i Webalizer. Większość dostawców nadaje dostęp do takich narzędzi w ramach swojej podstawowej usługi hostingu. Dobrze jest co jakiś czas tam zajrzeć.
Bardziej zaawansowane konfiguracje przechowują dane w postaci nieprzetworzonych plików dziennika, pochodzących prawdopodobnie z wielu źródeł. Niejednokrotnie, ich otwarcie wymaga specjalistycznych narzędzi do większych projektów, takich jak ELK stack (elasticsearch, logstash, kibana), który pozwala na przechowywanie, przetwarzanie i wizualizację plików dziennika. Istnieją również narzędzia do analizy logów, takie jak Splunk.
Co WLICZA się W CRAWL BUDGET?
Wszystkie adresy URL i żądania są wliczane do crawl budgetu. Obejmuje to alternatywne adresy URL, takie jak strony AMP lub m-dot, hreflang, zasoby CSS i JavaScript, w tym żądania XHR. Te adresy URL można znaleźć, przemierzając i analizując strony lub trafić na nie w ramach innych źródeł, jak chociażby mapy stron, kanały RSS, przesyłając adresy URL do indeksowania w Google Search Console lub korzystając z interfejsu API indeksowania. Istnieje wiele Googlebotów , które korzystają ze wspólnego budżetu indeksowania. Listę różnych Googlebotów indeksujących serwis internetowy można znaleźć w raporcie Statystyki indeksowania w GSC.
Google dostosowuje sposób ich indeksowania. Każda strona internetowa będzie miała inny bilans crawl budget’u. Dzieje się tak za sprawą różnej technologii aplikacji web, struktury i zasobów jakie tworzą witrynę.
ŻĄdanie indeksowania
Żądanie indeksowania to nic innego jak to, ile zasobów strony internetowej zostanie przez Google zaindeksowane. Strony o dużej popularności i te, na których znaczące zmiany następują dynamicznie, będą indeksowane częściej. Popularne strony lub te posiadające duże zaplecze off-site, mają pierwszeństwo przed innymi stronami www. Należy pamiętać, że Google w jakiś sposób musi ustalić kolejność indeksowania zawartości strony, a link building to łatwy sposób na wskazanie tej kolejności. Wspominając o priorytecie, mamy na myśli setki milionów publicznych strony internetowych, serwisów i aplikacji, które Google ma na celu zaindeksować w wyszukiwarce. Analiza podstron potrzebujących linków ułatwiana jest przez narzędzia SEO. Bez nich, proces byłby żmudny i zajmowałby wiele godzin.
Jak przyspieszyć indeksowanie w Google
Istnieje koncepcja stagnacji wśród serwisów internetowych. Jeśli algorytmy Google zauważą stagnację serwisu online – brak zmian, brak nowych treści – zdecydowanie rzadziej będzie ją indeksować. Na przykład, jeśli dokona się indeksacja strony i w dalszym czasie nie zdarzą się żadne stosowne zmiany po jednym dniu, Google da sobie czas i poczeka trzy dni przed ponowną analizą i indeksowaniem. Jeśli stagnacja będzie trwać dłużej, algorytmy Google coraz rzadziej analizować będą taki serwis internetowy. Na początek da sobie odstęp dziesięciu dni, następnym razem 30 dni, 100 dni itd. Nie ma ustalonego okresu między próbami indeksowania, jednak z czasem stanie się to coraz rzadsze. W momencie, gdy Google zauważy duże zmiany w całej witrynie lub ruch w ramach witryny, zwiększy się szybkość indeksowania, przynajmniej na jakiś czas – a to jest już bardzo dobry symptom.
Limit szybkości indeksowania
Limit szybkości indeksowania określa zakres indeksowania, który może obsłużyć Twoja witryna. Strony internetowe mają pewną ilość indeksowania, które mogą podjąć, zanim wystąpią problemy ze stabilnością serwera – spowolnienia lub błędy. Większość robotów indeksujących zrezygnuje z indeksowania, jeśli zaczną dostrzegać te problemy, aby nie zaszkodzić witrynie. Google dostosuje się na podstawie stanu indeksowania witryny. Jeśli witryna działa poprawnie mimo zwiększonego indeksowania, limit ten wzrośnie. Jeśli w witrynie występują problemy, Google spowolni tempo indeksowania.
Zachęć Google do szybszego indeksowania Twojej strony internetowej
Jest kilka aktywności, które można wykonać aby zwiększyć zapotrzebowanie na indeksowanie witryny w samym Google. Poniżej opiszemy niektóre z tych opcji.
Przyspiesz serwer lub zwiększ zasoby
Sposób, w jaki Google indeksuje strony, polega w zasadzie na pobieraniu zasobów, a następnie przetwarzaniu ich i osadzeniu w indeksie. Szybkość Twojej strony internetowej, jaką postrzega użytkownik, nie jest taka sama jak w przypadku algorytmów. To, co wpłynie na budżet indeksowania, to szybkość, z jaką Google może łączyć się i pobierać zasoby. Jest to dedykowana praca z serwerem i jego zasobami.
Linki wewnętrzne i linkbulding
Zapotrzebowanie na indeksowanie jest generalnie oparte na popularności serwisu lub posiadanych linkach. Stosownie wpłyniemy na zwiększenie poprzez ilość linków zewnętrznych i/lub linków wewnętrznych – najlepiej oczywiście obie te metryki. Linki wewnętrzne są oczywiście łatwiejsze w uzyskaniu, ponieważ są to działania on-site. Z pomocą specjalistycznych narzędzi SEO, sugerowane linki wewnętrzne, naszym klientom budujemy wyłącznie na podstawie analiz.
Dbanie o posiadane zasoby linków zewnętrznych
Utrzymywanie aktywnych linków i wyeliminowanie niedziałających lub przekierowanych stron w witrynie nie wpłynie znacząco na crawl budget. Podstrony, do których prowadzą linki, będą miały dość niski priorytet, ponieważ najprawdopodobniej, od dłuższego czasu nie zmieniły się na nich treści. Usunięcie wszelkich problemów jest dobre dla ogólnej kondycji strony internetowej lub sklepu. Zwykle zauważalne są wzrosty w metrykach polegające na poprawieniu autorytetu witryny w oczach Google. Zachęci to algorytmy do dalszego przeglądania jej zasobów. Pozycjonowanie sklepów internetowych mocno opiera się na tym wskaźniku. Stosując odpowiednie narzędzia SEO, znaleźć można uszkodzone (4xx) i przekierowane (3xx) linki w witrynie.
W przypadku uszkodzonych lub przekierowanych linków zawartych w mapie witryny, wyciągamy istotne dane z raportu Wszystkie problemy związanych z typem „Przekierowanie 3XX w mapie witryny” i „Strona 4XX w mapie witryny”.
Użyj GET zamiast POST, gdzie możesz
Nieco bardziej techniczne szczegóły, czyli metody żądania HTTP. Unikajmy żądań POST tam, gdzie działają żądania GET. Zasadnicza różnica jest super prosta: GET (pociągnij) a POST (push). Żądania POST nie są buforowane, więc mają wpływ na budżet indeksowania, ale żądania GET mogą być buforowane.
Użyj interfejsu API indeksowania
Jeśli konieczne jest szybsze indeksowanie strony, warto sprawdzić czy serwis kwalifikuje się do korzystania z interfejsu Google Indexing API . Obecnie jest to dostępne tylko dla kilku konkretnych typów treści, np. ofert pracy lub film z kapitałem giełdowym. Bing zaprojektował dostępny dla każdego interfejs API indeksowania.
Co przestało działać
Zespoły SEO stosują różne techniki wymuszania indeksowania. Okazuje się, że spora część starych technik wymuszania zwiększonego indeksowania przestała działać. Poniżej znajdziemy kilka z nich.
- Drobne zmiany na stronie internetowej. Wprowadzanie drobnych zmian na stronach, takich jak aktualizowanie dat, spacji lub interpunkcji, w nadziei na częstsze indeksowanie stron. Google całkiem nieźle radzi sobie z określaniem, czy zmiany są znaczące, czy nie, więc te niewielkie zmiany prawdopodobnie nie będą miały żadnego wpływu na indeksowanie.
- Dyrektywa Crawl-Delay w pliku robots.txt. Ta dyrektywa spowolni wiele botów. Jednak Googlebot nie stosuje się do tej dyrektywy, więc i tutaj rezultat będzie żaden.
- Usuwanie skryptów innych firm. Skrypty innych firm nie są wliczane do budżetu indeksowania, więc ich usunięcie nie pomoże.
- Linki nofollow. Ten czynnik nie jest pewnikiem. W przeszłości, linki nofollow nie eksploatowały budżetu indeksowania. Jednak nofollow jest teraz traktowane jako wskazówka, więc Google może podjąć decyzję o indeksowaniu również i takich linków.
Spowolnienie indeksowania Google
Jest tylko kilka dobrych sposobów na spowolnienie indeksowania Google. Z technicznego punktu widzenia można wprowadzić kilka innych zmian, takich jak spowolnienie witryny, ale nie są to metody, które polecam.
Regulacja indeksowania
W zestawie funkcji Google Search Console, znaleźć możemy regulację, a raczej ogranicznik szybkości indeksowania. Za pomocą tego narzędzia można spowolnić prędkość indeksowania. Po regulacji parametru indeksowania, odczekać należy do 48h aż ustawienie zacznie obowiązywać.
Konfiguracja parametru z ryzykiem
W sytuacjach krytycznych, eksperci SEO próbują zwiększyć parametr indeksowania strony internetowej. Istnieje taka możliwość, a zwiększenie tego parametru wiąże się również ze stanem technicznym witryny internetowej. W sytuacji, gdy Googlebot otrzyma kody stanu „503 usługa niedostępna” lub „429 zbyt wiele żądań” na serii podstron, zaczną one być indeksowane wolniej lub zostaną tymczasowo wykluczone z indeksu. Taki stan rzeczy (przyspieszonego indeksowania) nie powinien trwać dłużej niż kilka dni. Usunięcie z bywa bolesne dla właścicieli biznesów online.