Sitemap

Czy strona internetowa potrzebuje sitemap? Czy może zostać pominięta? Odpowiedzi na te pytania nie są jednoznaczne i zależą od konkretnej witryny. Jednak istnieją takie serwisy, które powinny posiadać sitemap. Mapę witryny można niejako porównać do mapy przeglądowej – znacząco pomaga robotom zrozumieć strukturę danego portalu, poznać które podstrony są bardziej wartościowe od innych i umożliwia dotarcie do konkretnych treści, tak jak mapa przeglądowa pozwala osobie z niej korzystającej ustalić trasę do danego punktu. Ale jak właściwie stworzyć i przesłać sitemap, aby umożliwić robotom Google jej odnalezienie? Odpowiedzi na powyższe pytania będzie można znaleźć w dalszej części tego artykułu.

Spis treści:

  1. Czym jest sitemap?
  2. Dlaczego strona powinna mieć sitemap?
  3. Tworzenie mapy witryny
  4. Rozszerzenie map witryn dla dodatkowych typów multimediów
  5. Przesyłanie mapy witryny
  6. Streszczenie
  7. Podsumowanie

Czym jest sitemap?

Mapa witryny (ang. sitemap) to w dużym uproszczeniu kolekcja adresów URL, które prowadzą do różnych podstron na danej witrynie. O ile dla przeciętnego użytkownika nie stanowi większej wartości, o tyle jest bardzo ważna dla robotów wyszukiwarki zajmujących się crawlowaniem stron i indeksowaniem treści.

Dlaczego strona powinna mieć sitemap?

To, czy konkretna strona powinna mieć sitemap, zależy w głównej mierze od profilu i konstrukcji danej strony. Okaże się ona bardzo przydatna w przypadku serwisów, na których:

  • znajduje się bardzo duża liczba podstron – tyczy się to przede wszystkim sklepów internetowych z dużą bazą produktów, liczącą dziesiątki tysięcy pozycji;
  • nie ma linkowania wewnętrznego, nie jest ono przygotowane w prawidłowy sposób bądź linki są często aktualizowane;
  • bardzo często dodawane są nowe treści i aktualizowane te istniejące;
  • istnieje wielopoziomowy podział podstron (katalog główny -> kategoria -> podkategoria i tak dalej).

W przypadku serwisów o powyższej charakterystyce sitemap znacząco ułatwi robotom wyszukiwarki proces indeksowania stron – a w niektórych sytuacjach, jak w przypadku całkowitego braku linkowania wewnętrznego na danej podstronie, umożliwi ten proces w ogóle. Przydaje się także, kiedy w serwisie wprowadzone są istotne zmiany na przestrzeni wielu podstron. Dzięki mapie witryny daje się znać robotom wyszukiwarek, że treści zostały zaktualizowane. W ten sposób można przyspieszyć indeksowanie nowych i zaktualizowanych materiałów.

Mapa witryny z kolei może okazać się całkowicie zbędna, jeśli wszystkie podstrony danego serwisu są poprawnie połączone za pomocą linkowania wewnętrznego. W takiej sytuacji roboty indeksujące nie powinny mieć problemu z zaindeksowaniem wszystkich treści. Jako że taki scenariusz jest mało prawdopodobny, lepiej korzystać z odpowiednio i poprawnie przygotowanej sitemapy.

Tworzenie mapy witryny

Jeśli już wiadomo, czym jest sitemap i które strony powinny mieć stworzoną w odpowiedni sposób mapę witryny, to teraz warto skupić się na tym, jaka powinna być jej prawidłowa konstrukcja, jakie dane powinny się tam znaleźć i jakich adresów URL absolutnie nie powinno się tam umieszczać, by nie zaszkodzić stronie.

Jakie dane powinny znaleźć się w sitemap.xml?

XML (ang. Extensible Markup Language) to format tekstowy, który pozwala na zapisywanie danych w postaci łatwej do odczytania zarówno dla użytkowników, jak i przez maszyny (w tym wypadku roboty wyszukiwarki Google – lecz nie tylko, o czym w dalszej części tego artykułu). Jako że plik XML zawiera szczegółowe informacje dotyczące adresów URL witryny, takie jak data ostatniej aktualizacji czy ważność danego linku, aby plik ten mógł spełniać swoją funkcję, musi mieć ściśle określoną, pozbawioną błędów strukturę.

Strukturę formatu XML określają rozmaite tagi. W przypadku mapy witryny dzielą się one na obowiązkowe opcjonalne. Do obowiązkowych należą następujące tagi:

  • <urlset> – tag ten nawiązuje do obowiązującego standardu protokołu i zawsze musi pojawić się na początku mapy witryny.
  • <url> – nadrzędny tag dla każdego indywidualnego wpisu adresu URL. Wszystkie pozostałe tagi są elementami podrzędnymi względem tego tagu.
  • <loc> – tag ten określa lokalizację danego adresu URL. Musi rozpoczynać się od rodzaju wykorzystanego protokołu (http czy https).

Oprócz tego każda mapa witryny, by była prawidłowo odczytywana, musi być zakodowana w standardzie UTF-8. Prócz opisanych wyżej tagów wymaganych, można także zastosować tagi opcjonalne takie, jak:

  • <lastmod> – data ostatniej modyfikacji adresu URL. By została odczytana, musi być prawidłowo zapisana, czyli w formacie YYYY-MM-DD. Dla przykładu, 2018-01-22 czy 2020-07-04.
  • <changefreq> – częstotliwość zmian wprowadzanych na stronie. Tag ten może przyjąć jedną z 7 wartości: always, hourly, daily, weekly, monthly, yearly bądź never. Warto pamiętać, że roboty Google nie traktują tego jako wytyczne, a jedynie jako luźną wskazówkę. I tak mogą crawlować strony oznaczone wartością „never”, a strony z wartością „hourly” sprawdzać co kilka dni, a nie co godzinę.
  • <priority> – określa priorytet adresu URL w stosunku do pozostałych adresów w mapie. Tag ten przyjąć może wartości od 0.0 do 1.0. Należy tutaj pamiętać, że jest to priorytet wyłącznie w obrębie mapy witryny i wpływa na to, że strony z wysokim priorytetem zostaną szybciej zaindeksowane. Nie ma to kompletnie żadnego przełożenia na pozycję w organicznych wynikach wyszukiwania w Google.

Wymagania mapy witryny

Każda mapa witryny ma swoje ściśle określone wymagania, które muszą być spełnione, by mogła działać, jak należy. Są to:

  • Rozmiar pliku – rozmiar pliku mapy witryny nie może przekroczyć 50 MB. Rekomendowane jest, by plik mapy witryny był mniejszych rozmiarów – ułatwia to wyszukiwarkom przetworzenie go.
  • Pojemność  mapy witryny – w pojedynczym pliku mapy witryny nie może znajdować się więcej niż 50 000 adresów URL. Jeśli ilość adresów zostanie przekroczona, należy stworzyć kilka map witryn i spiąć je ze sobą za pomocą indeksu mapy witryn – o czym można poczytać w dalszej części tego wpisu. Dobrym zwyczajem jest trzymać się limitu około 30 000 adresów na 1 plik – mniejsza ilość zmniejsza wagę pliku, co z kolei pozwala robotom wyszukiwarek szybciej go przetwarzać.
  • Nazwa pliku – nazwa pliku mapy witryny może być dowolna, choć najczęściej to po prostu „sitemap.xml”. Nie może ona jednak zawierać polskich znaków i spacji.
  • Lokalizacja i format – plik sitemap.xml można umieścić w dowolnym miejscu, jednak Google zaleca, by był to katalog główny strony. Dodatkowo mapa może być skompresowana. Po przesłaniu mapy witryny z oczywistych względów nie należy zmieniać jej lokalizacji – a jeśli jest to konieczne, trzeba zgłosić mapę witryny ponownie, by roboty wyszukiwarek były w stanie ją odnaleźć.

Jakie adresy URL nie powinny znaleźć się w mapie witryny?

Przeznaczeniem mapy witryny jest przechowywanie adresów URL dla robotów wyszukiwarki, co ma ułatwić im indeksowanie treści. Jednakże są tutaj pewne ograniczenia – nie wszystkie powinny znajdować się w tym pliku. Unikać należy następujących adresów URL:

  • Adresy z przekierowaniami.
  • Strony z błędami – jak błędy 4xx czy 5xx.
  • Adresy zablokowane w robots.txt lub z tagiem noindex.
  • Adresy będące wynikami wyszukiwania.

W mapie witryny powinny znaleźć się kanoniczne adresy URL, czyli takie, które mają zostać zaindeksowane.

Przykładowa mapa strony

Podsumowując przedstawione wcześniej informacje, poniżej przedstawiono wygląd przykładowej mapy witryny z 2 adresami URL (podstrona1 i podstrona2) dla serwisu „http://www.przykladowastrona.pl/

<?xml version=&quot;1.0&quot; encoding=&quot;UTF-8&quot; ?>
<urlsetxmlns=&quot;http://www.sitemaps.org/schemas/sitemap/0.9&quot;>
<url>
<loc>http://www.przykladowastrona.pl/podstrona1/</loc>
<lastmod>2020-08-05</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.przykladowastrona.pl/podstrona2/</loc>
<lastmod>2020-08-10</lastmod>
<changefreq>weekly</changefreq>
<priority>0.4</priority>
</url>
</urlset>

Sitemapindex – czyli wiele map witryn

Wspomniano wcześniej o limitach mapy witryny, między innymi o maksymalnej liczbie adresów URL, które mogą się w niej znaleźć. Limit ten wynosi 50 000 dla pojedynczego pliku. Co więc zrobić w sytuacji, gdy strona składa się z większej ilości adresów URL? Należy stworzyć kilka map witryn i spiąć je wszystkie ze sobą za pomocą indeksu map witryn.

Wiele map witryn wykorzystywanych jest głównie w przypadku dużych sklepów internetowych z dziesiątkami tysięcy produktów w bazie. Umieszczenie ich wszystkich w jednym pliku jest niemożliwe, a linkowanie wewnętrzne pomiędzy taką ilością stron może być problematyczne, szczególnie że produkty w e-sklepach często są aktualizowane.  

Gdy stworzy się więcej niż jedną mapę witryny, konieczne będzie wykorzystanie indeksu mapy witryny – sitemapindex – by móc je jednocześnie przesłać. Plik sitemapindex jest bardzo podobny do pliku mapy witryny i korzysta z następujących tagów:

  • <sitemapindex>  – tag nadrzędny indeksu mapy witryn, który obejmuje całą zawartość pliku.
  • <sitemap> – tag nadrzędny dla każdej mapy witryny wylistowanej w pliku. Jest to tag podrzędny względem <sitemapindex>.
  • <loc> – lokalizacja danej mapy witryny i jednocześnie tag podrzędny dla <sitemap>.

Przykładowo, jeśli potrzebuje się utworzyć indeks map witryn zawierający w sobie 3 mapy witryny (sitemap1.xml, sitemap2.xml i sitemap3.xml), może on wyglądać tak:

<?xml version=”1.0″ encoding=”UTF-8″ ?>
<sitemapindex xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>
<sitemap>
<loc>http://www.przykladowastrona.pl/sitemap1.xml</loc>
</sitemap>
<sitemap>
<loc>http://www.przykladowastrona.pl/sitemap2.xml</loc>
</sitemap>
<sitemap>
<loc>http://www.przykladowastrona.pl/sitemap3.xml</loc>
</sitemap>
</sitemapindex>

Nie oznacza to oczywiście, że w indeksie mapy witryn mogą znajdować się wyłącznie 3 pliki z mapami witryn. Finalna ilość może być niemalże dowolna.

Rozszerzenie map witryn dla dodatkowych typów multimediów

Prócz standardowej mapy witryny, skupiającej adresy URL funkcjonujące w obrębie strony, można także korzystać z dodatkowych typów map witryn, które pomogą robotom wyszukiwarek odnajdywać i indeksować konkretne treści. Są to mapy witryn wideomapy witryn grafiki i mapy witryny dla Google News.

Mapa witryny wideo

Mapa witryny wideo to nic innego jak mapa witryny zawierająca dodatkowe informacje o umieszczonych na stronach filmach. Sprawdza się doskonale w sytuacji, w której chce się pomóc Google znaleźć materiały wideo zamieszczone na stronie. Szczególnie w przypadku niedawno dodanych filmów bądź takich, których roboty szukające Google mogą nie znaleźć w konwencjonalny sposób.

Prócz <url> i <loc> znanych ze standardowej mapy witryny, w mapie witryny wideo wymagane jest stosowanie następujących tagów:

  • <video:video> – tag nadrzędny wszystkich informacji dotyczących jednego filmu.
  • <video:thumbnail_loc> – tag wskazujący plik będący miniaturą filmu.
  • <video:title> – tytuł filmu. Zaleca się, by wpisana tutaj wartość pasowała do tytułu filmu wyświetlanego na stronie.
  • <video:description> – opis filmu, który może zawierać maksymalnie 2048 znaki. Zawarty tutaj tekst musi odpowiadać opisowi umieszczonemu na stronie internetowej, choć oczywiście nie musi być przepisany 1:1.
  • <video:content_loc> i <video:player_loc> – pierwszy Tag wskazuje adres URL multimedialnego pliku wideo, drugi URL odtwarzacza konkretnego filmu. Wykorzystuje się je naprzemiennie, w zależności od specyfiki stron. Dla przykładu serwis YouTube korzysta z tagu <video:player_loc>.

Tak jak w przypadku standardowej mapy witryny, tutaj także zastosować można szereg tagów opcjonalnych, choć nie są one oczywiście wymagane przez Google. Są to:

  • <video:duration> – czas trwania filmu w sekundach. Wartość musi mieścić się w przedziale od 1 do 28800. Jest to tag zalecany do wykorzystania podczas tworzenia mapy witryny wideo.
  • <video:expiration_date> –  tag wykorzystywany do określenia daty, po której film nie będzie już więcej dostępny. Możesz go pominąć, jeśli film ma być dostępny na stałe.
  • <video:rating> –  ocena filmu, z wartością od 0.0 (niska) do 5.0 (wysoka). Jeden z tagów opcjonalnych.
  • <video:view_count> – kolejny tag opcjonalny, który wskazuje ilość wyświetleń dla danego filmu.
  • <video:publication_date> – data pierwszej publikacji filmu. Należy pamiętać, że to data publikacji filmu na stronie, a nie dodania jej do mapy witryny wideo.
  • <video:family_friendly> – wykorzystywana, jeśli film ma być dostępny przy włączonym filtrze SafeSearch.
  • <video:restriction> – ten opcjonalny tag określa, czy film ma być widoczny w wynikach wyszukiwania w określonych krajach. Może przyjąć wartość allow (zezwolenie) bądź deny (zakaz).
  • <video:platform> – określa, czy film ma pojawiać się w wynikach wyszukiwania na konkretnych platformach (web, mobile bądź tv).
  • <video:price> – cena za wyświetlenie filmu. Tag należy pominąć w przypadku darmowych filmów.
  • <video:requires_subscription> –  tag wykorzystywany w przypadku filmów, które wymagają aktywnej subskrypcji do otworzenia.
  • <video:uploader> – dane osoby, która przesłała film.
  • <video:live> –  określa, czy film jest transmitowany na żywo. Może przyjąć wartości yes (tak) bądź no (nie).
  • <video:tag> –  ciąg tekstowy krótko opisujący główne zagadnienia i tematykę filmu.
  • <video:category> – krótki opis kategorii, do której należy film. Opis może mieć maksymalnie 256 znaków.

Przykładowa mapa witryny wideo, w której znajduje się jeden film, wyglądać może następująco:

<?xml version=”1.0″ encoding=”UTF-8″ ?>
<urlsetxmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″
xmlns=”http://www.google.com/schemas/sitemap-video/1.1″>
<url>
<loc>http://www.przykladowastrona.pl/strona_z_filmem</loc>
<video:video>
<video:thumbnail_loc>http://www.przykladowastrona.pl/miniatury/123.jpg</video:thumbnail_loc>
<video:title>Rozbijanie namiotu w deszczu</video:title>
<video:description>Jak rozbić namiot w deszczu – doradza survivalistaMaciek</video:description>
<video:content_loc>http://video.przykladowastrona.pl/film123.mp4</video:content_loc>
<video:player_loc>http://przykladowastrona.pl/odtwarzacz.php?video=123</video:player_loc>
<video:duration>540</video:duration>
<video:expiration_date>2021-03-30T18:00:00+01:00</video:expiration_date>
<video:rating>4.7</video:rating>
<video:view_count>12301</video:view_count>
<video:publication_date>2020-06-30</video:publication_date>
<video:family_friendly>Yes</video:family_friendly>
<video:restriction relationship=”allow”>PL IE GB US</video:restricion>
<video:price currency=”EUR”>4,99</video:price>
<video:requires_subscription>No</video:requires_subscription>
<video:uploader info=”http://www.przykladowastrona.pl/autorzy/jankowalski>Jan Kowalski</video:uploader>
<video:live>No</video:live>
</video:video>
</url>
</urlset>

W pliku XML z mapą witryny wideo nie używa się oczywiście polskich znaków.

Mapa witryny z obrazami

Jak wskazuje nazwa mapa witryny z obrazami, zawiera adresy obrazów wykorzystywanych w obrębie danej strony. Poprawnie utworzona mapa z obrazami ułatwi robotom Google odnalezienie i odczytanie grafik w danej witrynie. W przypadku tego typu mapy witryny obowiązkowe są 2 tagi:

  • <image:image> –  tag nadrzędny zawierający wszystkie informacje dotyczące pojedynczego obrazu na stronie.
  • <image:loc> –  adres URL danego obrazu.

Tutaj także pojawiają się tagi opcjonalne, takie jak:

  • <image:caption> – podpis do danego obrazu.
  • <image:geo_location> – geograficzna lokalizacja obrazu.
  • <image:title> – tytuł obrazu.
  • <image:license> –  adres URL licencji obrazu.  

Przykładowa mapa witryny z obrazami, w której znajdują się 3 obrazy (obraz1.jpg, obraz2.jpg i obraz3.jpg) wygląda następująco:

<?xml version=”1.0″ encoding=”UTF-8″ ?>
<urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″
xmlns=”http://www.google.com/schemas/sitemap-image/1.1″>
<url>
<loc>http://www.przykladowastrona.pl/przyklad.html</loc>
<image:image>
<image:loc>http://przykladowastrona.pl/obraz1.jpg</image:loc>
</image:image>
<image:image>
<image:loc>http://przykladowastrona.pl/obraz2.jpg</image:loc>
</image:image>
<image:image>
<image:loc>http://przykladowastrona.pl/obraz3.jpg</image:loc>
</image:image>
</url>
</urlset>

Mapa witryny dla Google News

Prócz mapy ze zdjęciami i filmami, strona zawierać może także mapę witryny dla Google News. Dzięki temu – pod warunkiem że zostanie odpowiednio i poprawnie przygotowana – umożliwia szybsze odnalezienie newsów przez roboty wyszukiwarek, a to z kolei znacząco wpływa na zasięgi. W przypadku mapy witryny dla Google News wykorzystywane są 3 tagi:

  • <publiction> – w skrócie oznacza wydawnictwo, w którym pojawia się dany artykuł. Dzieli się na 2 tagi podrzędne  <name>, które określa nazwę wydawnictwa i <language>, który służy do określenia języka wydawnictwa.
  • <publication_date> –  data opublikowania artykułu w danej witrynie. Dwa najpopularniejsze formaty daty to pełna data – RRRR-MM-DD (np. 2020-09-20), jak i pełna data z godziną i minutami – RRRR-MM-DDTgg:mm:TZD (np. 2020-09-20T12:30+01:00). W przypadku daty publikacji podawać należy datę pojawienia się artykułu na stronie, a nie dodania go do mapy witryny.
  • <title> –  tytuł danego artykułu z wiadomościami. Zaleca się, by tytuł był wpisany dokładnie w takiej formie, w jakiej wyświetla się w witrynie. Należy pamiętać, że przez ograniczone miejsce tytuł może zostać skrócony. W tytule nie podaje się imienia i nazwiska autora, daty i nazwy wydawnictwa.  

Mapa witryny dla Google News ma swoje własne wymagania, takie jak:

  • Limit adresów URL – w przypadku pojedynczej mapy witryny dla Google News wynosi on 1000 adresów URL. Jeśli wartość ta jest większa, należy podzielić adresy pomiędzy wiele map witryn i skorzystać z indeksu mapy witryn w celu zarządzania nimi.
  • Aktualizowanie mapy – nowe adresy URL powinny pojawiać się tutaj w miarę ich publikowania. Nie należy tworzyć oddzielnej mapy witryny dla każdej aktualizacji – wyjątkiem jest jednak przekroczenie limitu adresów.
  • Tworzenie mapy witryny – w przypadku mapy witryny dla Google News nie korzysta się z narzędzia generatora map witryn Google.

Przykładowy pojedynczy wpis w mapie witryny dla Google News dotyczący wiadomości o tytule „Przykładowy tytuł wiadomości A”, pierwotnie opublikowany 2020-09-30, wyglądać może tak:

<?xml version=”1.0″ encoding=”UTF-8″ ?>
<urlset xmlns=http://www.sitemaps.org/schemas/sitemap/0.9 
xmlns:news=”http://www.google.com/schemas/sitemap-news/0.9”>
<url>
<loc>http://www.przykladowastrona.pl/artykul123/</loc>
<news:news>
<news:publication>
<news:name>Przykładowa Gazeta</news:name>
<news:language>pl</news:language>
</news:publication>
<news:publication_date>2020-09-30</news:publication_date>
<news:title>Przykładowy tytuł wiadomości A</news:title>
</news:news>
</url>
</urlset>

Przesyłanie mapy witryny

Gdy ma się już przygotowaną mapę witryny – bądź indeks map witryn z kilkoma mapami – należy jeszcze przesłać ją w odpowiednie miejsce, by roboty wyszukiwarek wiedziały, jak ją odnaleźć. Plik z mapą witryny może znajdować się w katalogu głównym danej strony.

Skutecznie ułatwimy robotom Google odnalezienie i zaindeksowanie adresów URL Twojej witryny!
Zapytaj o ofertę

Trzymając się wspomnianej kilkukrotnie w tym artykule strony http://www.przykladowastrona.pl/, najoptymalniej byłoby, aby plik miał następujący adres: http://www.przykladowastrona.pl/sitemap.xml. Nie jest to co prawda wymagane, aby plik ten znajdował się w katalogu głównym, ale jest to dobra praktyka, której warto się trzymać.

Teraz należy udostępnić mapę witryny robotom wyszukiwarek. W tym celu można:

  1. Przesłać mapę witryny do Google – dokonać tego można za pomocą narzędzia Mapy Witryn w Google Search Console. Szczegółową instrukcję wraz z wytycznymi Google, znajdzie się pod tym adresem.
  2. Umieścić ją w pliku robots.txt – należy umieścić następującą komendę we wspomnianym pliku robots.txt:

Sitemap: http://www.przykladowastrona.pl/sitemap.xml

  1. Przesłać mapę witryny do Bing – podobnie jak w przypadku Google, Bing udostępnia narzędzia między innymi do publikowania map witryny –  Bing Webmaster Tools. Więcej informacji i szczegółowo opisaną instrukcję znaleźć można tutaj.

Podsumowanie

Jak widać mapa witryny może być dużą wartością dodaną dla witryny, gdyż ułatwia robotom Google odnalezienie i zaindeksowanie adresów URL stron, grafik czy plików wideo. Warunkiem jest jednak prawidłowe jej przygotowanie. Mapa witryny zawierająca błędy czy adresy, których mieć nie powinna, może przyczynić się do obniżenia pozycji strony. Tyczy się to szczególnie stron z błędami 4xx i 5xx, a także pętli przekierowań.

Konieczność utworzenia pliku sitemap powinna być rozpatrywana indywidualnie dla każdej strony, gdyż czasami nie będzie konieczności jej tworzenia. Jeśli na stronie nie pojawiają się często nowe i/lub zaktualizowane treści, to przy poprawnym linkowaniu wewnętrznym będzie można obejść się bez mapy witryny. Jednakże niektóre typy witryn – jak sklepy internetowe – przez swoją specyfikę powinny zawsze ją posiadać.


Powiązane frazy