Otwarcie Pon - Sob 09:00-18:00
Email info@westom.pl Zadzwoń +48 530 825 825
Otwarcie Pon - Sob 09:00-18:00
Email info@westom.pl Zadzwoń +48 530 825 825

Jak indeksować treści w wyszukiwarkach internetowych

Tworząc nową stronę internetową i projektując jej architekturę pod SEO należy pamiętać, że najważniejsze jest to, by strona została znaleziona i zindeksowana przez wyszukiwarki. Witryny często są tak skonstruowane, że wyszukiwarki nie mogą sobie poradzić z ich odczytem.

Indeksujemy naszą stronę www

Wyszukiwarki internetowe głównie indeksują treść zapisaną w formacie HTML. Oczywiście po części potrafią odczytać i zindeksować grafikę i niektóre pliki w formacie Flash, ale nie określają ich tematycznej trafności względem pozostałej zawartości na stronie. Materiały, które są udostępniane na stronie internetowej muszą być, chociaż w części, zapisane w formacie HTML. W przeciwnym razie trudno będzie zająć wysoką pozycję w wynikach wyszukiwania.

Pliki graficzne takie, jak JPEG, GIF, PNG zawierają niewiele informacji tekstowych. Treść jest zawarta w nazwie pliku, tytule oraz atrybucie alt. Nie oznacza to, że można wpisać cokolwiek w te pola. Treść ma być zgodna z tym, co jest na obrazku. Same grafiki jednak nie wystarczą by zająć wysoką pozycję w rankingu. W przyszłości na pewno ulegnie to zmianie. Cały czas trwają prace nad innowacyjnymi technologiami. Rozpoznawanie obrazów przez wyszukiwarki na pewno będzie możliwe w przyszłości. Do tego jednak potrzebna jest naprawdę potężna moc obliczeniowa, więc zanim to nastąpi, to jeszcze trochę czasu upłynie.

Na razie możliwości rozpoznawania obrazów przez wyszukiwarki są znacznie ograniczone. Póki co, można przeciągnąć obraz w pole wyszukiwania lub wprowadzić jego adres URL. Wyszukiwarka znajdzie nam inne źródła grafiki, czy inne podobne obrazy pasujące do naszego zapytania. I tak, Google może rozpoznać jakąś znaną budowlę, jeśli wrzucimy jej obraz. Do sprecyzowania zapytania, warto jednak wpisać jeszcze tekst w pole wyszukiwania.

Podobnie jest z plikami Flash. Najbardziej popularne rozszerzenie Flasha .swf może zostać zauważone przez wyszukiwarkę i zindeksowane pod kątem słów i fraz, które są zawarte w ich nazwach. Wyszukiwarka bardzo rzadko zwraca na zapytanie pliki Flash. Materiały w tym formacie są po prostu dla niej nie czytelne. Wyszukiwarki najbardziej są zainteresowane plikami w formacie HTML.

Indeksowanie odnośników

Elementy nawigacyjne strony internetowej muszą być widoczne do robotów indeksujących, aby te mogły je odnaleźć. Wiele osób w trosce o bezpieczeństwo ukrywa lub ogranicza dostęp do tych danych. To nie ułatwia pracy wyszukiwarkom, znalezienie witryny staje się bardzo trudne. Wtedy strona internetowa ma mniejsze szanse by znaleźć się wysoko w rankingu. Nowa witryna powinna mieć odpowiednio skonstruowaną i dostępną strukturę linków. Dzięki temu roboty indeksujące łatwo i szybko je znajdą i zindeksują.

Jakie są przyczyny ograniczenia dostępu do stron wyszukiwarkom internetowym?

  • Odnośniki we Flashu – chociaż wyszukiwarki coraz lepiej radzą sobie z wykrywaniem odnośników we Flashu, to należy pamiętać, że najbardziej przystępny format zapisu to tekst w formacie HTML.
  • Odnośniki w Javie – odnośniki znajdujące się w Javie, czy innych wtyczkach, nie są widoczne dla robotów indeksujących.
  • Odnośniki generowane przez JavaScript – linki tworzone przez złożony kod JavaScript nie są dobrze widoczne dla wyszukiwarek. Może się zdarzyć, że roboty indeksujące pominą te odnośniki, a w najlepszym przypadku ocenią nisko. Od kilku lat algorytmy indeksowania JavaScirpt są na bieżąco udoskonalane, co umożliwia przetwarzanie obrazów niektórych skryptów, dlatego nie warto blokować robotów indeksujących pliki JavaScript. Samemu można sprawdzić, w jaki sposób wyszukiwarka przetwarza naszą stronę, Google udostępnia opcję podejrzenia renderowania naszej strony. Wystarczy przejść kolejno: Konsola wyszukiwania-indeksowanie-pobierz jako Google-(wpisujemy adres strony)-pobierz-zrenderuj.
  • Gdy skorzystanie z linku wymaga formularza (logowania, lista wyboru itp.) – wyszukiwarka nigdy nie podejmuje się próby przesłania formularza. Wszystko, co jest dostępne za jego pośrednictwem, jest po prostu nie widoczne dla robotów indeksujących.
  • Linki zawarte w formacie PDF i PowerPoint – wyszukiwarki sporadycznie odczytują odnośniki zawarte w tych plikach, ale nie wiadomo jak często, na ile jest to skuteczne i jaką przypisują wartość takim linkom.
  • Zbyt dużo linków na stronie – można powiedzieć, że im więcej linków na stronie, tym mniejszą będą one miały wartość. Dawniej Google zalecał zamieszczać nie więcej niż 100 odnośników na jednej stronie. Obecnie nie ma takich ograniczeń, ale nie zmienia to faktu, że im jest ich więcej, tym ich wartość spada. Ilość linków wychodzących na stronie można sprawdzić za pomocą różnych narzędzi np. Screaming Frog.
  • Linki w znacznikach frame oraz iframe – tych znaczników nie zaleca się używać, jako elementów nawigacyjnych strony. Stwarzają one wyszukiwarkom strukturalne problemy, chociaż teoretycznie linki umieszczone w tych znacznikach mogą być odczytane.
  • Linki do stron zawierających odniesienie do pliku robots.txt lub znacznik meta robots z atrybutem rel=no follow – robots.txt blokuje dostęp do strony internetowej robotom indeksującym. Atrybut nofollow w linku lub znacznik meta robots z atrybutem content o wartości no follow na stronie zawierającej odnośnik pokazuje wyszukiwarce, że link ten nie przekazuje żadnej wartości.

 

Protokół XML Sitemaps

Wykorzystując protokół XML Sitemaps można przesłać wyszukiwarce listę stron internetowych, które chciałoby się zaindeksować. Format XML obsługuje Google, Yahoo! oraz Bing. Adres URL zapisany wewnątrz pliku mapy witryny ułatwia robotom indeksującym znalezienie i zaindeksowanie strony. W innym razie mogłyby one w ogóle nie być przez wyszukiwarkę odnalezione. Nie ma jednak 100% pewności, że witryna zostanie odnaleziona i zaindeksowana, ale zawsze jest to jakieś ułatwienie dla wyszukiwarek.

Mapa witryny przydatna jest wtedy, gdy:

  • Witryna jest bardzo duża.
  • Zawiera różne multimedia.
  • Nie ma zbyt dużej ilości linków zewnętrznych.
  • Zawiera pokaźnie archiwum odizolowanych stron, albo strony nie są połączone linkami.
  • Witryna obecna jest w Google News.

Mapa witryny – co daje i jakie są jej zalety?

  • Wyższy wskaźnik zaufania i autorytet witryny poprzez rejestrację i weryfikację mapy XML.
  • Pozytywny wpływ na indeksowanie strony – podane metadane, takie jak data modyfikacji strony, częstotliwość modyfikacji strony, pozytywnie wpływają na indeksowanie dla stron, które zostały już kiedyś znalezione przez wyszukiwarkę.
  • W przypadku napotkania przez wyszukiwarkę zduplikowanych dokumentów, łatwiej dokona ona wyboru kanonicznej strony.
  • Zwiększony zasięg zaindeksowania poprzez wykorzystanie informacji o dodatkowych adresach URL.
  • Wzrost pozycji w rankingu oraz szerszy zasięg niektórych stron w wyniku prostszego indeksowania.
  • Dostęp do dodatkowych informacji takich, jak indeksowanie stron, wykrywalność, obecność duplikatów treści w przypadku rejestracji mapy witryny w konsoli wyszukiwania Google.

Należy pamiętać, że mapa witryny nie może zastąpić zwykłego sposobu skanowania strony internetowej przez roboty indeksujące. Mapa witryny jest jedynie dodatkową pomocą. Może być szczególnie przydatna, gdy istnieje podejrzenie, że witryna nie została do końca zaindeksowana. Dobrze skonstruowana mapa XML może ułatwić i przyspieszyć rozwiązanie problemu.

Budowanie mapy XML

Narzędzia do budowy mapy XML:

  • Tekst – wyszukiwarka Google akceptuje tradycyjny plik tekstowy zawierający jeden adres URL na linijkę. Lepiej jednak użyć w tym celu specjalnego generatora.
  • Generator map – to prosty skrypt, który automatycznie tworzy i wysyła mapy. Generator tworzy mapy na podstawie listy adresów URL, loginów lub struktury katalogów na serwerze. Dostępnych jest kilka aplikacji usprawniających proces tworzenia plików xml. Na przykład:

Fastsitemap – to polski generator map; istnieje możliwość wygenerowania aż do 1000 adresów całkowicie za darmo (http://fastsitemap.com/).

Sitemaps – umożliwia swobodne generowanie map witryn do 500 podstron. Generuje wszystkie ważne dane w Sitemapie, w tym automatyczne nadawanie priorytetów i ostatnią datę publikacji (https://www.xml-sitemaps.com/).

Sitemap Generator – strona polskiego webmastera; całkowicie za darmo i bez logowania można wygenerować mapę zawierającą do 750 linków, a jeśli zdecydujemy się zarejestrować i zalogować, to ilość możliwych wygenerowanych adresów wzrasta do 1500 (http://www.g-sitemap-generator.com/pl/).

AuditMypc – narzędzie oparte jest na Javie, do uruchomienia wymaga odpowiednich wtyczek w przeglądarce. Narzędzie ma największe możliwości w porównaniu z poprzednimi opisanymi programami. Dzięki niemu można wygenerować aż 1500 adresów. Bardzo przydatne szczególnie dla dużych witryn internetowych ( https://www.auditmypc.com/xml-sitemap.asp).

Wszystkie cztery powyższe narzędzia umożliwiają darmowe generowanie map online. Jedynym ograniczeniem jest limit podstron. Na ogół za niewielką opłatą można uzyskać nielimitowany dostęp do aplikacji. Narzędzia te są niezwykle przydatne w generowaniu mapy dla własnej witryny.

Są jeszcze skrypty, które można pobrać ze strony internetowej na swój komputer:

Perl Site Generator (https://code.google.com/archive/p/perlsitemapgenerator/)

Simple Sitemaps (http://www.smart-it-consulting.com/article.htm?node=154&page=82)

  • Kanały RSS – wyszukiwarka Google akceptuje mapy przesłane za pośrednictwem RSS (Really Simple Syndication), mogą one jednak tylko zawierać dane o nowych adresach URL.

Proces budowania mapy XML rozpoczyna się od stworzenia pliku w formacie .xml. Nie jest to łatwy proces, wymaga specjalistycznej wiedzy technicznej, którą posiadają informatycy/programiści. Specjaliści odpowiedzialni za witrynę od strony technicznej, powinni na bieżąco ją uaktualniać.

Mapy witryn dla:

  • Obrazów – zapisując obrazy w mapie witryny można znacznie poprawić ich widoczność w sieci. Dla każdego odnośnika strony w pliku można stworzyć listę obrazów. Lista może zawierać linki aż do 1000 obrazów. Z adresem URL związane są znaczniki obrazów. Stworzenie listy obrazów w witrynie znacznie zwiększa szansę na ich znalezienie i zaindeksowanie. Strony, które mają więcej wylistowanych obrazów, będą ważniejsze dla wyszukiwarki niż te, które mają ich mniej. Wyszukiwarka zrozumie, że niewpisane obrazy nie są ważne, zatem nie warto im poświęcać uwagi i ich indeksować. Więcej na temat znaczników obrazów: https://support.google.com/webmasters/answer/178636?hl=pl

 

  • Filmów – Google rozpoznaje następujące formaty video: .asf, .avi,.flv, .mpg, .mpeg, .mp4, .m4v, .mov, .ra, .ram, .rm, .swf, .wmv. Udostępnienie danych o filmach ułatwi ich odnalezienie przez wyszukiwarkę . Więcej o mapie filmów: https://support.google.com/webmasters/answer/80471

 

  • Urządzeń mobilnych – dla stron, które są dedykowane do odczytu na tabletach, smartfonach, telefonach komórkowych. Jeśli strona występuje również w tradycyjnej (stacjonarnej) formie, to informacje dla urządzeń mobilnych powinny się znajdować w innych plikach, niż pliki dla stacjonarnych stron. Google rozróżnia różne wersje składni. Inne są dla urządzeń przenośnych, a inne dla stacjonarnych. Wyszukiwarka rozróżnia także specjalistyczne warianty językowe, takie jak: cHTML, WML, XHTML Mobile Profile.

Jeśli wiele linków prowadzi do tej samej treści na stronie, to tworząc plik mapy witryny należy zapisać tylko jedną, główną (kanoniczną) wersję adresu URL. W taki sposób pokazuje się wyszukiwarkom, że akurat ta wersja strony jest najlepsza. W pliku nie należy zapisywać wszystkiego. Nie trzeba podawać wszystkich adresów URL prowadzących na te same strony i treści. Należy również pominąć niewyświetlane strony i sprawdzić, czy żaden adres w pliku nie zawiera parametrów śledzenia.

Gdy już mamy przygotowaną mapę witryny, to należy ją załadować do folderu głównego (folder o najwyższej hierarchii), który ma zostać zaindeksowany.

Po zaakceptowaniu mapy oraz zaindeksowaniu witryny, można już zacząć śledzić jej wyniki wyszukiwania. Dzięki temu będzie można szybko wykryć ewentualne problemy i na bieżąco uaktualniać plik mapy. W tym celu może się okazać pomocne narzędzie dla webmasterów Google (https://www.google.com/intl/pl/webmasters/#). Dzięki narzędziu można na bieżąco porównywać statystyki i diagnozować wszelkie problemy z mapą.

Aktualizować mapę witryny można tak często, jak tylko jest taka potrzeba. Szczególnie warto to robić, gdy na witrynie pojawi się nowy adres URL, gdy dodasz dużą liczbę stron, czy dokumentów. Sama aktualizacja treści na stronie nie jest powodem do aktualizacji mapy. Tak samo, nie ma potrzeby aktualizacji w przypadku usunięcia strony – skoro strony już nie ma, to wyszukiwarka i tak jej nie znajdzie. Nie oznacza to, że można mapę w nieskończoność zaśmiecać. Wyszukiwarki na bieżąco pobierają nowe wersje mapy witryny (chyba, że zmieni się lokalizacja pliku), więc lepiej, żeby w mapie nie znajdowało się za dużo odnośników do już nieistniejących stron.

Za pomocą Sitemap: w pliku robots.txt. można umożliwić wyszukiwarce automatyczne wykrywanie mapy witryny. Opcja dostępna jest dla wyszukiwarek Google i Bing.

W przypadku dużych serwisów internetowych, jeśli często są dodawane i/lub usuwane duże ilości stron, to można ten proces zautomatyzować. Takie narzędzia można stworzyć samemu lub skorzystać z gotowych rozwiązań. Wiele witryn korzysta ze specjalnych skryptów do codziennej regeneracji mapy.

Wszystkie nowo powstałe witryny są odnajdywane i indeksowane przez roboty indeksujące na podstawie odnośników. Mapy witryn XML są znacznie prostsze do zindeksowania. Wpływa to na wzrost pozycji w rankingu oraz szerszy zasięg.