Otwarcie Pon - Sob 09:00-18:00
Email info@westom.pl Zadzwoń +48 530 825 825
Otwarcie Pon - Sob 09:00-18:00
Email info@westom.pl Zadzwoń +48 530 825 825

Duplikowanie treści na stronie www

Czym grozi kopiowanie treści

Podstawowe (i ważne) pojęcia:

Unikalne treści – takie treści są tworzone przez ludzi i dla ludzi. Są poprawne stylistycznie, gramatycznie i ortograficznie. Napisane są z sensem i są charakterystyczne dla danej strony internetowej, nie pojawiają się na innych witrynach.

Wycinki – krótkie fragmenty tekstu (w tym cytaty), które są kopiowane z danego artykułu na danej stronie internetowej i ponownie wykorzystywane w innej treści, na innej witrynie. Nie będą potraktowane przez wyszukiwarkę jako duplikat. Najczęściej te krótkie wycinki tekstu są umieszczane w unikalnej i długiej treści.

Kamyki – znacznie krótsze wycinki tekstu, zazwyczaj o długości kilku wyrazów. Jeśli za dużo, takich krótkich fragmentów, pojawi się na innej stronie z tego samego artykułu, to wyszukiwarka może dopatrzeć się duplikatu.

Powielaną treść można podzielić na trzy grupy:

  • Dokładna (prawdziwa).
  • Duplikat (dwa adresy zawierają dokładnie taką samą treść).
  • Prawie duplikat (różnice między tekstami są niewielkie np. tylko uzupełnione o dodatkowy obraz, lub ta sama treść bez obrazu, zamiana pojedynczego słowa, kolejności słów lub zdań itp.).
  • Duplikaty między domenowe (dokładne lub podobne duplikaty występują na wielu domenach).

Jest jeszcze inny rodzaj treści, który jest niesłusznie mylony ze zduplikowaną treścią, a jest to treść:

Thin content – czyli cienka treść. Tak określa się strony internetowe, które zawierają mało treści. Teksty muszą sensownie wyczerpywać daną tematykę. Taki rodzaj treści prezentują na przykład strony internetowe, gdzie znajduje się tylko spis adresów.

Thin slicing – czyli strony bardzo podobne. Są to strony, które prezentują tą samą tematykę i są między nimi tylko niewielkie różnice odnośnie głównego tematu. Przykładem są strony dla jednego produktu, które różnią się na przykład tylko rozmiarem lub kolorem. Treść będzie w zasadzie identyczna dla każdego z nich.

Wyszukiwarki napotykając zduplikowane treści w internecie mogą je potraktować w różny sposób. Kary za powielaną treść zdarzają się niezwykle rzadko. Wyszukiwarki mogą obniżyć pozycję strony w rankingu, jeśli według nich doszło do powielenia treści. Mogą też usunąć taką stronę z indeksu, a w skrajnych przypadkach nałożyć karę. Jeśli istnieje podejrzenie o duplikat do dwóch stron, wyszukiwarka może po prostu wybrać jedną z nich, a drugą zignorować. Podczas dokonywania wyboru jednej ze stron, wyszukiwarki korzystają z filtra zduplikowanej treści. Filtr ma na celu usunięcie podobnych do siebie treści z wyników wyszukiwania.

Zduplikowane treści nie zawsze powstają specjalnie. Jeśli ktoś świadomie kopiuje tekst w całości, albo chociaż jego fragment, to wtedy mamy do czynienia z plagiatem. Czasami jednak duplikaty występują z innych powodów. Na przykład z powodu błędów w architekturze strony internetowej (może być temu winny CMS nieprzystępny pod kątem SEO), czy wykupienia praw do strony internetowej. Czasami zdesperowani spamerzy korzystają z artykułów zamieszczonych na innych stronach internetowych. Korzystając z mieszarki słów, zmieniają ich treść i zamieszczają na swoich stronach internetowych. W taki sposób chcą zwiększyć pozycję swojej witryny w rankingu wyszukiwania.

Użytkownicy wręcz oczekują od wyszukiwarek różnorodnych wyników wyszukiwania. Nie chcą dostać całej strony wynikowej z linkami do takich samych treści. Dlatego wyszukiwarki muszą odfiltrować duplikaty treści. Wyszukiwarki nie są w stanie odróżnić, które ze stron o takiej samej treści są duplikatem, a które nie. Jak robot indeksujący napotka kilka stron o takiej samej treści, to którą wybierze? Jak działają algorytmy podczas wybierania odpowiedniej treści? Tak naprawdę nie wiadomo, nikt jeszcze nie zdradził takich danych i nikomu nie udało się znaleźć odpowiedzi na te pytania. Prawda jest taka, że wyszukiwarka może wybrać zupełnie inną treść od tej, na której nam najbardziej zależy.

Poza tym wyszukiwarka nie będzie skanować danej witryny w nieskończoność. Roboty indeksujące mają limit na ilość stron, które mogą przeskanować w danej sesji. Każdy napotkany duplikat zmniejsza i marnuje ten limit. Może się okazać, że większość limitu zostanie zmarnowana na duplikaty, a to, co wartościowe nie będzie już mogło zostać przeskanowane. Duplikaty zostaną przesiane i usunięte z wyników wyszukiwania, a wartościowe strony może w ogóle nie zostaną zaindeksowane.

Duplikat treści przez przypadek.

Jeśli powielona treść pojawiła się na witrynie niezamierzenie, przez przypadek czy błąd ludzki, to wyszukiwarka najprawdopodobniej odrzuci wszystkie kopie poza jedną. Wyszukiwarka ma na celu, pokazanie w wynikach wyszukiwania tylko jednego niepowtarzalnego linku. Czasami, wyszukiwarka odrzuca z wyników treści jeszcze przed ich zaindeksowaniem. Są też przypadki, kiedy umieszcza jedną stronę w indeksie, po czym usuwa ją z wyników wyszukiwania w odpowiedzi na zapytanie. Nie musi się tak dziać na każde zapytanie, może to być po prostu jakiś rodzaj, określona grupa zapytań.

Są jeszcze innego rodzaju problemy. Na przykład, jeśli na stronie jest możliwość dostępu do treści w formie łatwej do druku. Czasami się zdarza, że wyszukiwarka pobiera taką wersję strony i wyświetla ją w wynikach wyszukiwania. Zdarza się tak nawet w przypadku, gdy wersja do druku ma mniej linków i mogłoby się wydawać, że powinna być niżej w rankingu, niż strona główna.

W takich sytuacjach, na ogół stosuje się znacznik z atrybutem canonical. Znacznik umieszcza się na wszystkich zduplikowanych stronach, a jego zadaniem jest wskazanie strony głównej.

Tak samo jest w przypadku, kiedy udostępnia się treści stronie trzeciej. Zdarza się, że wyszukiwarka treść na właściwej witrynie traktuje jako duplikat, a na innej stronie uzna za tą właściwą. Można sobie z tym poradzić w następujący sposób:

  • Strona trzecia może zastosować atrybut noindex. Taka treść nie zostanie zaindeksowana przez wyszukiwarki, a wszelkie linki zamieszczone w treści będą pokazywać autorytet naszej strony.
  • Strona trzecia może dodać na swojej stronie atrybut rel= canonical. Atrybut ten będzie prowadził do oryginalnej strony. Wyszukiwarka „zrozumie”, że to nasza strona jest tą właściwą, a linki prowadzące do kopii będą zaliczane na poczet naszej strony.
  • Strona trzecia może na swojej stronie zamieścić link do naszej strony. Wyszukiwarki to „rozumieją” i wolą właściwą wersję tekstu.
  • Proces identyfikowania powielonej treści przez wyszukiwarki (etapy):
  • Wyszukiwarka trafia na zduplikowane treści – zawarty na stronie tekst jest w całości zduplikowany, a nie tylko fragmenty.
  • Wyszukiwarka porównuje podobne treści.
  • Duplikaty zostają usunięte z indeksu.
  • Wyszukiwarka określa oryginalną treść – na korzyść witryny przemawiają:
  • Strona była już indeksowana w przeszłości.
  • Duża liczba linków do strony.
  • Zaufanie do domeny.
  • Ocena w skali PageRank.
  • Czy kopie wskazują na oryginał w linkach.
  • Czy wersja przeszła przez proces mechanicznej modyfikacji i dostosowania.

Problem z powielaniem treści może dotyczyć nie tylko różnych stron internetowych, ale również podstron należących do tej samej witryny.

Oznacza to, że jeśli wszystkie duplikaty znajdują się na jednej witrynie, to takie zjawisko również jest nazywane duplikacją treści. Co więcej, nigdy nie wiadomo, jaka cześć treści musi być podobna do siebie, by wyszukiwarka uznała to za duplikat. Takie dane nie są podawane, jeśli by były udostępnione publicznie, to wyszukiwarki nie byłyby już tak skuteczne. Prawdopodobnie to się zmienia. Nie musi być cały tekst powielony, aby był duplikatem, wystarczy jakaś jego część. Może się też tak zdarzyć, że jedna treść będzie miała więcej wspólnych części z danym tekstem, a „przejdzie” dalej, inna będzie miała mniej podobieństw, a zostanie uznana za duplikat. Trudno powiedzieć, czym tak naprawdę kierują się wyszukiwarki, na pewno wiadomo, że nie chodzi tylko o bezpośrednie podobieństwa.

Niektórzy obawiają się, jak będą potraktowane paski nawigacji na ich witrynie. Duże serwisy mogą mieć przecież dużo wspólnych elementów – tytuły, nagłówki itp., ale niewiele treści. Na szczęście wyszukiwarki nie przywiązują wagi do wspólnych części w pasku nawigacji. Takie wspólne elementy są przecież czymś normalnym. Wyszukiwarki najbardziej interesują się unikalną treścią na stronie.

Wyszukiwarki nie interesują się kodem HTML. Na przykład, jeśli strona składa się z dużej ilości kodu i ma mało unikalnych elementów HTML, to wyszukiwarka nie spojrzy na to jak na duplikat. Wyszukiwarki interesuje tylko sama treść strony. Kod HTML może mieć znaczenie tylko w skrajnych przypadkach.

Problemy z powielaną treścią pojawiają się także w przypadku, gdy posiada się licencję na treść i chce się ją udostępnić użytkownikom. W tym wypadku można zrobić dwie rzeczy. Pierwsza to uzyskanie praw własności i wyłączności na publikowanie treści. Druga to użycie znacznika meta z atrybutami name = robots content= noindex, follow.

Znacznik ten należy umieścić w sekcji <head> strony. To da sygnał wyszukiwarkom, że treści obecne na stronie nie są dla nich przeznaczone. Jest to najlepsze z możliwych rozwiązań. Użytkownicy będą mieć swobodny dostęp do strony i będą mogli tworzyć dla niej linki, co wpłynie korzystnie na całą witrynę.

Co zrobić w przypadku podejrzenia naruszenia praw autorskich?

Poprosić wydawców o usunięcie naszej treści z ich strony – czasami treść, która pojawia się na innych stronach nie zawsze pojawiła się tam świadomie, to znaczy ludzie nie zdają sobie nieraz sprawy, że nie można kopiować fragmentów czy całości treści z innych stron internetowych.

Kontakt z firmą hostingową – czasami takie firmy są odpowiedzialne za przechowywanie duplikatów treści. Są przyzwyczajone do odbierania tego typu zgłoszeń i powinny szybko odpowiedzieć na nasze zgłoszenie. Trzeba tylko udowodnić, że zduplikowana treść jest nasza własnością.

Kontakt z właścicielami wyszukiwarek – można wysłać pismo u uznanie naruszenia praw autorskich, jednocześnie trzeba poinformować o tym fakcie firmę hostingową.

Złożenie pozwu przeciwko właścicielowi witryny wykorzystującej nasze treści – nie spieszmy się z tym krokiem, na początek lepiej po prostu skomunikować się z właścicielami i spróbować wyjaśnić sprawę. W większości wypadków na tym sprawa powinna się zakończyć. Nikt nie lubi włóczyć się po sądach, takie sprawy trwają miesiącami i nie są tanie. W niektórych jednak przypadkach rozmowa nic nie da. Można wtedy zacząć najpierw od „postraszenia” sądem, a kolejnym krokiem powinien już być złożony wniosek w sądzie.

Na ogół jedyną karą dla witryn publikujących powieloną treść, jest obniżenie pozycji w rankingu wyszukiwania. Można rzec, że jest to najgorsza kara. Takie kary są na skutek działania filtrów. Najbardziej narażone na otrzymanie kary są witryny, które korzystają z treści z wielu różnych serwisów, duplikują je, a przy tym nie dają nic od siebie, nie tworzą niczego unikalnego. Taka strona może zostać ukarana.

Jak sobie z tym radzić? Jest na to tylko jeden niezawodny sposób. Należy ograniczyć ilość zduplikowanych stron dostępnym wyszukiwarkom. Można to zrobić na kilka sposobów – poprzez usunięcie duplikatów, umieszczenie atrybutu noindex lub uzupełnienie zduplikowanych treści dużą ilością własnych unikalnych tekstów.

Strony w cienkim partnerskim serwisie (ang. Thin affiliate site) są doskonałym przykładem zduplikowanej zawartości, która w szerszej perspektywie może zostać odfiltrowana. Tak nazywa się witryny, które reklamują sprzedaż produktów innej firmy, ale nie różnią się pod wieloma względami od właściwej witryny sprzedającej te produkty. Strona taka otrzymała opis produktu od producenta i skopiowała go wraz z odnośnikiem do strony partnera. W taki sposób może skorzystać na wejściu w link produktu i potencjalnej sprzedaży, dzięki temu zdobędzie udział w zyskach.

Problem dotyczy szczególnie przypadków, kiedy producent ma bardzo wielu partnerów i spora ich część postępuje w podobny sposób. Dla wyszukiwarek, strony partnerskie nie dają żadnej wartości dla indeksu z perspektywy użytkownika.

Takie strony mogą zostać raz na zawsze usunięte z indeksu. Partnerskie witryny mogą korzystać z treści udostępnionej przez producenta, ale ważne jest, by te treści były odpowiednio obrobione, uzupełnione o unikalne fragmenty.

Wtedy nie będzie problemu z powielaniem treści. Najgorzej jest, jeśli na stronie występują same duplikaty i nie został włożony żaden wysiłek by to zmienić.

Jak radzić sobie z wewnętrznym powielaniem treści?

Jak już wcześniej było wspomniane, z duplikatami treści możemy się spotkać nie tylko w odniesieniu do różnych stron internetowych, ale również zjawisko to może wystąpić w obrębie jednej witryny. W takim przypadku postępuje się inaczej niż w przypadku duplikatów treści na innych stronach internetowych. Tutaj przede wszystkim ważne są rezultaty pod względem SEO, dlatego trzeba odpowiednio podejść do sprawy. W końcu zduplikowane strony nie są ważne ani dla użytkowników, ani dla wyszukiwarek. Z powieloną treścią na własnych podstronach można sobie radzić poprzez zastosowanie kilku uniwersalnych wskazówek:

  • Za pomocą atrybutu kanonicznego canonical – najlepsze rozwiązanie w przypadku powielonych stron.
  • Plik robots.txt – dzięki temu zablokujemy robotom indeksującym dostęp do powielonych stron na witrynie.
  • Znacznik <meta name= robots content= noindex > – wyszukiwarka nie będzie indeksowała zduplikowanych stron.

Różne i najczęstsze przypadki zduplikowania treści:

CMS – czasami system zarządzania treścią tworzy wiele linków do tych samych zasobów. Z tego powodu, na witrynach powstaje wiele takich samych treści. Nie mają one żadnej wartości. W takim wypadku, najlepiej jest je po prostu usunąć i zrobić przekierowanie na właściwe treści.

Protokół SSL – jeżeli witryna korzysta z protokołu SSL, ale nie są na niego przestawione wszystkie strony, to w adresach niektórych stron pojawi się https: zamiast http:. Problem jest w przypadku, gdy odnośniki na stronach z https: są linkami względnymi, a nie absolutnymi. Wtedy powstają dwie grupy linków. W takim wypadku najlepiej użyć kanonicznego znacznika URL lub przekierowania 301. Oba sposoby są równie skuteczne. Można także zamienić wszystkie linki względne na odnośniki absolutne. Takie rozwiązanie zabezpieczy również treść przed kopiowaniem przez innych.

Strony w wersji do druku lub uporządkowanymi danymi – strona w wersji do druku jest przyjazna użytkownikom i drukarce, ale dla wyszukiwarek jest po prostu duplikatem. Tak samo jest w przypadku na przykład list produktów, które oferują niektóre sklepy internetowe. Listę produktów można posortować w najróżniejszy sposób (na przykład ze względu na cenę, markę, rozmiar, a nawet według w kolejności na drodze od wejścia do sklepu do kasy, jeśli zakupy chcemy zrobić w sklepie stacjonarnym ). Dla użytkowników jest to wspaniałe rozwiązanie, mają całą listę produktów, którą mogą szybko wydrukować. Wyszukiwarki potraktują to jako duplikat. Można sobie z tym poradzić na dwa sposoby. Tak jak w powyższych przypadkach (CMS, protokół SSL) lub można umieścić na stronie specjalny, dedykowany drukarkom arkusz stylów.

Treści na blogach – treści na blogach mogą pojawiać się w wielu miejscach np. główny post, strona główna, archiwum, kategorie itp. Każdy post jest duplikatem. Niewielu bloggerów próbuje coś z tym robić, a warto ograniczyć treść postu na stronie.

Treści wygenerowane przez użytkownika – na wielu witrynach użytkownik sam może wprowadzać treści np., przez blog i forum. Jest to dobry sposób na zdobycie dużej ilości treści, ale niestety, nie jest to taka idealna metoda, jakby się wydawało. Użytkownik może bowiem publikować tą samą treść w różnych miejscach, co przyczynia się do powstawania duplikatów. Trudno mieć nad tym kontrolę. Można sobie z tym jednak poradzić w dwojaki sposób. Po pierwsze, można poprosić użytkowników, aby nie publikowali treści na zasadzie „napiszę raz, a potem skopiuję to i wkleję to samo w kilka innych miejsc”. Można nakłonić użytkowników, by za każdym razem starali się tworzyć unikalne treści na nowo. Jest to trudne do osiągnięcia, ale warto spróbować. W przypadku posiadania forum można tak je skonstruować, że będzie wymuszać na użytkownikach tworzenie nowej i niepowtarzalnej treści. Zamiast standardowych pól można wprowadzić takie, które będą wymagały wprowadzenia konkretnej informacji, unikalnej i pasującej do tematyki i działalności danej witryny.