Otwarcie Pon - Sob 09:00-18:00
Email info@westom.pl Zadzwoń +48 530 825 825
Otwarcie Pon - Sob 09:00-18:00
Email info@westom.pl Zadzwoń +48 530 825 825

W jaki sposób Google zbiera dane

W jaki sposób Google zbiera dane
Twoja ocena:

Google vs Bing, czyli wojna na wyszukiwania

Przyjrzyjmy się teraz bliżej podstawowym zasadom działania wyszukiwarek Google. Taka wiedza jest niezbędna dla wszystkich specjalistów od SEO.

Dzięki niej można zaplanować działania, które należy podjąć, by osiągnąć zamierzone cele.

Co ciekawe, poznając sposób działania wyszukiwarki Google nie mamy pewności, że wiedza ta będzie przydatna w przypadku innych silników, jak choćby chińskiej wyszukiwarki Baidu.

Chociaż wynik na wpisane przez nas zapytanie otrzymujemy w ułamku sekundy, to wyszukiwarki wykonują wiele operacji zanim nam dadzą odpowiedź.

Cały proces składa się głównie ze szperania, indeksowania oraz oceniania.

Szperanie – pierwszy etap szukania w sieci. Zaczyna się od podstawowego zestawu witryn, których treść wyszukiwarki uznały za dobrej jakości. Następnie poprzez linki na znalezionych stronach przechodzą do kolejnych. Jest to struktura oparta na sieci. Odnośniki łączą ze sobą wiele stron, co daje miliardy połączonych ze sobą dokumentów. Stąd nazwa automatycznych wyszukiwarek – szperacze lub pająki.

Indeksowanie – pierwszy krok to zbudowanie indeksu terminów. Wyobraźmy sobie gigantyczną bazę danych. W niej są skatalogowane wszystkie ważne terminy ze wszystkich odnalezionych przez wyszukiwarkę stron. W tej gigantycznej bazie danych zapisane są również mapy innych stron do których prowadziła dana witryna, anchor text czyli tekst w linkach itp. ilość danych, ilość wszystkich połączeń, a przede wszystkim czas, w jakim można otrzymać wynik na zapytanie wymaga naprawdę potężnych centrów przetwarzania danych.

Trafność – to stopień dopasowania treści zwracanej w wynikach do zamiaru i poprawności wyszukiwanego terminu. Trafność wzrasta, jeśli w otrzymanej treści zawarty jest termin podany przez użytkownika w zapytaniu lub w przypadku, gdy linki do danej strony pochodzą ze stron zawierających dany termin. Trafność jest zatem pierwszym ogniwem. Jeżeli witryna nie odpowiada danemu zapytaniu, to wyszukiwarka nie będzie chciała jej włączyć do wyników wyszukiwania.

Waga – najprościej rzecz ujmując waga treści wzrasta wraz ze wzrostem liczby treści odnoszącej się do niej. To takie odnoszenie się w jednej pracy do innej, na kształt bibliografii. Najczęściej takie zjawisko można obserwować we wszelkich pracach na uczelniach wyższych. Cytowanie ustanawia ważność treści. W sieci takimi odnośnikami są linki w dokumencie i odnośniki na portalach społecznościach. Waga jest cechą ułatwiającą szacowanie. Wyszukiwarka ocenia, która strona z danej grupy zasługuje na określone miejsce w rankingu.

Analizując zagadnienie wagi i trafności można stwierdzić, że ich wspólne zestawienie wpływa na pozycję stron w rankingu. Zatem wpisując hasło w wyszukiwarkę, na pierwszej pozycji pojawi się strona, która według wyszukiwarki ma najwyższy poziom pod względem trafności i wagi. Oczywiście, pomijając część z ewentualnymi stronami sponsorowanymi.

W celu oceny wagi i trafności wyszukiwarki posługują się skomplikowanymi modelami matematycznymi korzystającymi z algorytmów. Algorytmy złożone są z wielu części, nazywanych w marketingowym środowisku wyszukiwania algorytmicznymi kryteriami rankingowymi lub czynnikami rankingowymi.

A co z Bing? Wyszukiwarka bing i jej algorytmy sa bardzo zbliżone do Googla. Różnice sa w wadze przykładanej do poszczególnych czynników. I tak google lepiej rozwiną analizę i ocenę linkó wprzychodzących. Bing prezentuje więcej wyników ze spamu ale równocześnie Bong nie jest tak bardzo zmanipulowany.

Strona internetowa – ocena zawartości

Oceniając stronę internetową pod kątem zawartości, wyszukiwarki wykorzystują tzw. mapę semantyczną. Mapa ta powstaje w wyniku dokładnej analizy całej treści na stronie internetowej. Wyszukiwarka tworzy mapę danych. Następnie dokonuje oceny, czy słowa i frazy są użyteczne oraz czy zwrócić stronę, jako wynik wyszukiwania. Strona musi być semantycznie dopasowana do zapytania. W przeciwnym razie nie pojawi się w wynikach. Dlatego słowa i frazy znajdujące się na stronie internetowej odgrywają ogromna rolę i maję bezpośredni wpływ na pozycję witryny w rankingu.

Unikalność treści

Unikalność treści na stronie ma olbrzymie znaczenie w przypadku pozycjonowania. Wyszukiwarka musi określić unikalną treść dla danej strony. Pomoże to sprecyzować odpowiedzi na wiele typów zapytań użytkowników. Elementy nawigacyjne witryny są powtarzalne, występują na większości jej stron, dlatego nie ułatwiają wyszukiwarce pracy. Zastanawiając się można by pomyśleć, że w takim razie odnośniki nie są ważne. Ale tak nie jest. Są one współdzielone między stronami, nie liczą się w przypadku oceniania niepowtarzalności dokumentu.

Podczas oceniania strony wyszukiwarki zwracają uwagę na kilka aspektów. Czy taka sama treść jest dostępna na innej witrynie, a może jednak się czymś rożni i jeśli tak, to w jakim stopniu. Jaka jest długość unikalnej treści. Może to być tylko jedno słowo, fraza lub tekst na kilkaset czy kilka tysięcy znaków. Tak samo wyszukiwarki oceniają częstotliwość występowania słów kluczowych. Tworząc teksty wspomagające pozycjonowanie stron, trzeba zachować umiar. Zbyt duże nasycenie teksu słowami kluczowymi może być odebrane przez wyszukiwarkę jako spam. Często się o tym zapomina, żyjemy bowiem w przeświadczeniu, że im więcej kluczy, tym lepiej. Ale tak nie jest. Wyszukiwarki to dostrzegą i tylko można tym zaszkodzić pozycji swojej strony.

Na co zwracają uwagę wyszukiwarki

Wyszukiwarki wykonują bardzo dużo pracy, by przejrzeć miliardy stron, przyjrzeć się dokładnie ich zawartości i przeanalizować, w jaki sposób są ze sobą połączone odnośnikami. Układają sobie wszystkie zdobyte informacje, tworząc bazy danych. Dzięki temu odpowiedz na wpisane przez nas hasło w polu wyszukiwania pojawia nam się w zaledwie ułamku sekundy.

Wyszukiwarki to jednak nie ludzie, tylko zwykle programy komputerowe. Owszem są wyjątkowo złożone, zawierają skomplikowane algorytmy, jednak choć działanie ich jest godne podziwu, to nie są wcale tak idealne. Programy to roboty, które automatycznie potrafią zinterpretować zaledwie fragment (wycinek) tekstu na stronie. Aplikacje indeksujące analizują dokument HTML w czystej postaci. Każdy może sam sprawdzić źródło strony we własnej przeglądarce. Jednym ze sposobów jest wyświetlenie kodu źródłowego strony. Można to zrobić korzystając w przeglądarce z menu podręcznego. W zależności od przeglądarki mamy dostęp do opcji wyświetl/pokaż źródło strony.

Bardziej dociekliwi użytkownicy mogą skorzystać ze specjalnych dodatków i rozszerzeń do przeglądarki. Te specjalistyczne narzędzia pomagają przeglądać kody źródłowe stron internetowych bezpośrednio w przeglądarce. Dzięki nim można także wykryć aplikacje sieciowe i biblioteki JavaScript. Przeglądarka Chrome korzysta najczęściej z dodatku WebDeveloper. Program pokazuje nam w zasadzie to samo, co widzą szperacze na stronie internetowej. Dodatkowo wyszukiwarka widzi jeszcze nagłówki http, które są kodami statusu odbieranego od serwera na którym jest strona. Szperacze interesują się najbardziej tekstem na stronie, ale równie ważny jest dla nich tytuł strony. W końcu tytuł strony to najważniejsze kryterium rankingowe, a zawarty w nim fragment tekstu pojawia się w przeglądarce na karcie.

Meta keywords

Dawniej zawartość tagu metakeywords miała kluczowe znaczenie dla wszystkich wyszukiwarek internetowych. Zawartość tagu była brana pod uwagę przy ustalaniu pozycji strony w wynikach wyszukiwania. Jednak ogromna ilość niedozwolonych praktyk sprawiła, że znaczenie metatagu słów kluczowych zaczęło drastycznie spadać. Doszło do tego, że w 2009 roku Google ogłosił, że znaczniki meta keywords nie są już brane pod uwagę podczas oceny strony.

Meta keywords umieszczone są w kodzie źródłowym strony internetowej. Dodatkowo obok tagu są jeszcze znaczniki title i description. Meta znaczniki opisują zawartość strony internetowej. Powinny się tu znajdować słowa kluczowe, a nawet całe zdania, które najdokładniej opisują zawartość strony internetowej. Dawniej meta kewords służył do określania słów kluczowych związanych ze stroną. Był to punkt odniesienia dla robotów wyszukiwarek. Porównywały one zawartość meta keywords i dopasowywały do frazy wyszukiwania.

Nieuczciwe praktyki zwane Black Hat SEO wykorzystywały popularne słowa i frazy, które zamieszczały na stronie, chociaż strona nie miała z nimi nic wspólnego. Podobnie jak Google, także inne wyszukiwarki jak Bing, Yahoo! uznały, że znacznik meta keywords nie ma już większego znaczenia.

Meta description

Znacznik meta description nadal odgrywa ważną role w pozycjonowaniu strony. Treść opisu nie może być zbyt krótka i musi pasować do treści strony internetowej. W przeciwnym razie roboty wyszukiwarki skorzystają z innego źródła. Program widząc opis szuka powiązań z witryną. Zazwyczaj są to oczywiście słowa kluczowe i całe frazy. Jak we wszystkich treściach SEO, tutaj także należy zachować umiar z ilością słów kluczowych. Opis ma wyglądać naturalnie, by nie wzbudzać podejrzeń wyszukiwarki.

 

Niewidzialna zawartość

Wyszukiwarki to roboty, dlatego nie potrafią wszystkiego zobaczyć i zinterpretować tak, jak człowiek. Bez problemu dostrzegą, że strona zawiera grafikę, ale nie zobaczą, co ona przedstawia. Radzą sobie tylko z podstawowymi informacjami. Mogą wykryć obecność twarzy czy materiały pornograficzne (co ciekawe, treści pornograficzne wyszukiwarki rozpoznają po procencie odcienia skóry). Wyszukiwarka nie zobaczy jednak czy na zdjęciu jest znany celebryta, piękny pejzaż czy martwa natura. Nie rozpoznają również tekstu zawartego w grafice. Podobnie sprawa wygląda z filmami i muzyką. Wyszukiwarka nie odróżni piątej Symfonii Beethovena od utworu hip-hopowego, czy filmu przyrodniczego od sportowej relacji.

Oczywiście są już do dyspozycji takie narzędzia, dzięki którym robiąc zdjęcie wieży Eiffla i wprowadzając je w pole wyszukiwarki zostanie ono rozpoznane. Trwają również prace nad odczytywaniem tekstu z obrazu przez wyszukiwarkę. Jednak są to bardzo skomplikowane procesy wymagające olbrzymich nakładów i dużej mocy obliczeniowej, by wyszukiwarka mogła je wykorzystać.

Podobnie do obrazów, pliki video i audio również nie są łatwe do odczytania. Istnieją jednak pewne wyjątki. Cześć danych może być odczytana ze znaczników ID3 z plików MP3 czy z podcastów formatu AAC, w których są notatki w formie grafiki i zakładki.

Pliki Flash wyszukiwarki odczytują tylko w pewnym stopniu. Dokładne odczytanie nie jest możliwe. Wyszukiwarki mając do czynienie z plikiem Flash, skupiają się tylko na tekście. A przecież w tego typu filmu nie ma sensu wstawiać tekstu, chyba, że zrobilibyśmy to tylko pod kątem wyszukiwarki. Obrazy zawarte w animacjach Flash również nie są rozpoznawalne. Są traktowane jak grafika. Jeśli tekst zostanie zrenderowany graficznie, to informacja tekstowa, jaką wyszukiwarka mogłaby odczytać ,zostaje utracona.

Treść zawarta w programach także jest trudna do odczytania poprzez wyszukiwarki. Tekst musi być widoczny w samym kodzie źródłowym. To, że będzie obecny na stronie tuż po jej wczytaniu, nic nie daje.

Jak wygenerować czytelną treść

Potrzeba matką wynalazków. Istnieją rozwiązania, które generują czytelne treści, których wyszukiwarki nie dostrzegą. AJAX to metoda dynamicznego wczytywania treści na stronę przy użyciu JavaScript, po jej odczytaniu z bazy danych. Nie ma konieczności odświeżania całej strony.

Wydobywanie informacji (IR – ang. information retrieval)

Nowoczesne wyszukiwarki muszą wychodzić naprzeciw oczekiwaniom użytkownika. Muszą odgadywać ich zamiary, co użytkownik dokładnie miał na myśli wprowadzając zapytanie w pole wyszukiwania. Jest to niezbędne, by zwracać trafne, satysfakcjonujące, a do tego najbardziej aktualne treści.

W drugiej połowie XX wieku powstała nowa dziedzina wiedzy zwana wydobywaniem informacji. Ludzie szybko zdali sobie sprawę, że podczas wyszukiwania najważniejsze są dwa czynniki: trafność i waga. Wyszukiwarki dokonują przeróżnych pomiarów, by określić te czynniki. Przede wszystkim analizują dokumenty i linki.

Analiza dokumentów

Podczas analizy dokumentów wyszukiwarki starają się określić jakość treści, biorąc pod uwagę wiele czynników. Wyszukiwarki analizują całą treść, skupiają się na wszystkich jej ważnych obszarach, takich tytuł, nagłówki, znaczniki i sama zawartość. Sama analiza nie wystarcza. Równie ważne są wszelkie połączenia. To wspomniana wcześniej semantyczna łączność, czyli słowa i frazy, które naturalnie kojarzą się ze sobą. Tak jak ludzie kojarzą ze sobą i łączą dane słowa, tak wyszukiwarki tworzą własne bazy danych. Powołują się na teorię zbioru rozmytego i skomplikowane algorytmy. Wszystko to by odnaleźć jak najwięcej trafnych zależności i postrzegać sieć podobnie jak widzą ją ludzie.

Specjalistyczne narzędzia do mierzenia semantycznej łączności na stronie nie są potrzebne specjalistom SEO. Sama metoda jest skomplikowana i techniczna. Warto jednak zapoznać się z podstawami, aby zdobyć cenną wiedzę.