Googlebot | ideoforce.pl

Googlebot

Googlebot to nazwa stosowana w odniesieniu do 2 rodzajów robotów indeksujących Google – Googlebota komputerowego (symulującego użytkownika na komputerze) oraz Googlebota na smartfony (symulującego użytkownika urządzeń mobilnych). Ich celem jest sprawdzanie, co znajduje się na naszch stronach internetowych oraz badanie ich użyteczności i przyjazności dla użytkownika. Na podstawie tak zebranych informacji Google ustala ranking, a więc kolejność wyświetlania stron internetowych, które są prezentowane w wynikach wyszukiwania po wpisaniu przez użytkownika określonego hasła.

Googlebot – co to jest?

Googlebot to robot indeksujący Google, który występuje w dwóch postaciach – przeznaczonej na komputery (Googlebot komputerowy) oraz na urządzenia mobilne (Googlebot na smartfony). Pierwszy z wymienionych typów symuluje użytkownika korzystającego z desktopu, a drugi osobę przeglądającą zasoby sieci np. na telefonie komórkowym. Rolą obu podtypów jest więc „podszywanie się” pod użytkownika i zbieranie, jak największej ilości informacji w danej witrynie. Wszystkie dane, które zostaną zebrane przez robota, mają wpływ na późniejszy kształt indeksu wyszukiwarki, czyli wyników, które widzimy po wpisaniu określonej frazy.

Na czym polega działanie Googlebota?

Przemierzając zasoby sieci z pomocą linków, robot odwiedza poszczególne witryny, skanując ich zawartość, a następnie na bazie zebranych informacji, algorytm Google ocenia, które strony i na jakich pozycjach, powinny zostać wyświetlone użytkownikowi po tym, jak wpisze określoną frazę w wyszukiwarkę.

Googlebot to “oczy Google”, dzięki którym wie on, co znajduje się na naszych stronach internetowych i jaka jest ich kondycja. Zebrane przez niego informacje wykorzystywane są, aby tworzyć ranking stron prezentowanych użytkownikowi, który wpisuje dane hasło w okno wyszukiwarki. Jeśli więc Twoja strona internetowa wyświetla się wysoko w wynikach wyszukiwania, jest to wynikiem dobrej oceny strony przez Googlebota.

Googlebot jest w stanie zaindeksować maksymalnie pierwsze 15 MB pliku HTML lub innego pliku tekstowego – nawet jeśli jest on znacznie większy i zostało jeszcze wiele danych. Po przeskanowaniu zasobów takiej wielkości przechodzi w kolejne miejsce.

W tym miejscu warto wspomnieć także o crawl budgecie, określającym liczbę podstron, którą robot może zaindeksować, podczas pojedynczej wizyty w witrynie. Im bardziej witryna będzie przyjazna robotom wyszukiwarki, tym szybciej jej poszczególne elementy będą mogły zostać przeanalizowane i zaindeksowane. Kliknij i dowiedz się, jakie parametry wpływają na crawl budget.

Warto zaznaczyć, że wyszukiwarka Google stawia na politykę mobile first, indeksując przede wszystkim mobilne wersje treści, dlatego większość żądań jest realizowana przez Googlebota na smartfony, a mniejsza część przez robota komputerowego.

Jak Googlebot pobiera dane?

Występują specjalne podtypy Googlebota, które zajmują się pobieraniem różnych zasobów, wymienionych w kodzie HTML – np. obrazów, filmów, plików CSS czy JS. Pobieraniem poszczególnych zasobów zajmują się:

Googlebot Image – jest wykorzystywany do indeksowania bajtów obrazu w Google Grafika i usługach, które bazują na obrazach.
Googlebot News – stosowany przy indeksowaniu artykułów informacyjnych, ale liczy się również z historycznym tokenem klienta użytkownika.
Googlebot Video – stosowany do indeksowania bajtów wideo w wideo Google, ale również w innych usługach, których podstawą są filmy.

Warto wspomnieć także o występowaniu Google StoreBot, czyli bota, który indeksuje określone typy witryn – np. strony ze szczegółami produktów, koszyka czy płatności. Jeszcze innym, stosunkowo nowym rodzajem robota indeksującego jest GoogleOther, który ma odciążyć działanie Googlebota, indeksując m.in. treści R&D (Research & Development).

Do popularnych botów zalicza się także „Inna usługa Google”. To robot, który jest wykorzystywany przez różne zespoły usług, celem pobierania treści, które są dostępne publicznie w witrynach. Może być stosowany np. do jednorazowego indeksowania, związanego z badaniami wewnętrznymi.

Wyróżnia się także „Narzędzie Google do sprawdzania”, czyli robota, który naśladuje Googlebota (poza klientem użytkownika oraz tokenem klienta) i jest wykorzystywany przez narzędzia do testowania wyszukiwarki (np. test wyników z elementami rozszerzonymi). Nie sposób nie wspomnieć również o Google-Extended, czyli o samodzielnym tokenie usługi. Z jego pomocą wydawcy mogę określić, czy ich witryny mają pomagać np. w ulepszaniu Barda.

Jak ułatwić pracę Googlebota? Kilka wskazówek

Co zrobić by „ułatwić” Googlebotowi indeksację strony? Kluczem jest właściwa optymalizacja witryny m.in. zgodnie z najlepszymi praktykami z obszaru SEO. Poniższa lista przedstawia kilka kwestii, na które warto zwrócić szczególną uwagę.

Mapa strony XML – to plik, zawierający spis wszystkich podstron w witrynie. Mapa jest sporym ułatwieniem dla Googlebota, pomagając mu w indeksacji. Należy przesłać ją do Google Search Console.
Konfiguracja robots.txt – to plik „kontrolujący” zachowanie Googlebota w witrynie. Można go wykorzystać do określenia, które części witryny mają zostać przeszukane, a które powinny zostać pominięte przez robota. Dzięki temu treści, które nie są do tego przeznaczone nie będą widoczne w wyszukiwarce.
Optymalizacja meta tagów – wykorzystywanie odpowiednich meta tagów (tytuł, opis czy słowa kluczowe) może pomóc botowi lepiej zrozumieć zawartość strony.
Opisowe URL – adresy URL na stronie powinny mieć postać opisową i zawierać frazy kluczowe.
Szybkość wczytywania strony – Google chce indeksować strony, które zapewniają użytkownikom wysoką jakość treści, ale także wygodę związaną z korzystaniem z witryny. Szybkość ładowania stron jest więc jednym z ważnych elementów.
Właściwa struktura linków – linkowanie na stronie powinno być logiczne i uporządkowane. Dzięki temu Googlebot będzie łatwiej poruszał się po witrynie. Szczególnie ważne jest tutaj linkowanie wewnętrzne.
Atrybuty ALT – należy używać ich do opisywania obrazów na stronie, pomagając Gooblebotowi w zrozumieniu tego, co przedstawiają poszczególne grafiki.
Optymalizacja treści – warto zadbać m.in. o to, by robot mógł łatwo zrozumieć architekturę informacji na stronie. W tym celu należy stosować hierarchię nagłówków (np. H1, H2, H3) i pamiętać o odpowiednim zagęszczeniu słów kluczowych, które powinny występować naturalnie w tekście. Co ważne – im regularniejsze publikacje treści na stronie, tym większa szansa na częstsze odwiedziny Googlebota.

Jak Googlebot uzyskuje dostęp do witryny?

Googlebot może działać jednocześnie na tysiącach różnych komputerów, a jego działanie jest skalowane wraz z rozwojem sieci. Celem jest indeksowanie jak największej części podstron w witrynie, podczas jednej wizyty tak, by nie obciążać serwera. Warto wiedzieć, że w razie potrzeby można zmniejszyć szybkość indeksowania (np. w Google Serach Console), nie narażając infrastruktury strony na przeciążenie.

Googlebot indeksuje głównie z adresów IP, pochodzących ze Stanów Zjednoczonych, jednak jeśli strona blokuje żądania pochodzące z tego obszaru, mogą być one wysyłane z adresów, pochodzących z innych krajów. Googlebot może indeksować stronę zarówno z pomocą protokołu HTTP/1., jak i – HTTP/2. Indeksowanie z drugiej z wymienionych wersji może pomóc w zaoszczędzeniu zasobów obliczeniowych, zarówno witryny, jak i robota.

Googlebot – jak zablokować mu dostęp do strony?

Jest kilka sposobów, z których można skorzystać w sytuacji, w której nie chcemy, by dane treści zostały zaindeksowane przez Googlebota. Oto kilka z metod zalecanych przez Google:

Usunięcie treści z witryny – to najpewniejszy i najprostszy z możliwych sposobów na to, by niechciane treści nie wyświetlały się w wyszukiwarce.
Zabezpieczenie plików hasłem – dotyczy to wszystkich typów treści. Zabezpieczenie ich hasłem spowoduje, że dostęp do nich będą mieć tylko autoryzowani użytkownicy. Dzięki temu pliki nie będą wyświetlały się w Google, a jeśli już pojawią się w wynikach wyszukiwania, to zabezpieczenie ich hasłem sprawi, że ostatecznie zostaną usunięte.
Noindex – tag noindex jest regułą, informującą Google o tym, że określone treści nie mają być indeksowane i nie powinny być dostępne w wynikach wyszukiwania. Wciąż będzie można dostać się do nich poprzez linki, zamieszone np. w innych miejscach.
Robots.txt – stosując w nim odpowiednie reguły można uniemożliwić Googlebotowi dostęp do określonych plików multimedialnych w witrynie (obrazów i filmów).

Warto wspomnieć także o narzędziu do usuwania adresów URL, dostępnym w Google Search Console. Jego nazwa może być myląca, ponieważ jego działanie polega na tymczasowym ukryciu treści. Google nadal będzie indeksowało zasoby, ale nie będą one widoczne w wynikach wyszukiwania.

Podsumowanie

Googlebot to robot internetowy, którego Google używa celem tworzenia indeksu dla wyszukiwarki. Właściciele stron internetowych powinni skupić się na tym, by optymalizować strony tak, aby ułatwić pracę Googlebotom, co może przełożyć się także na efekty, w postaci zajmowania pożądanych pozycji w organicznych wynikach wyszukiwania.