Indeksowanie witryny w Google – 4 filary

Rubi-Con - 30 grudnia 2019 - 0 comments

Filar nr 1: Blokowanie stron

Google przypisuje „budżet indeksowania” do każdej witryny. Aby mieć pewność, że Google indeksuje strony, które chcesz, nie marnuj tego budżetu na strony, których nie chcesz indeksować.

Tutaj zaczyna się blokowanie stron.

Jeśli chodzi o blokowanie stron, masz wiele opcji i od Ciebie zależy, które z nich użyć. Dam ci narzędzia, ale sam musisz przeanalizować własną witrynę.

Robots.txt

Prostą techniką, którą lubię, jest blokowanie stron za pomocą pliku robots.txt.

Pierwotnie zaprojektowany w wyniku przypadkowego DDOS-a witryny z robotem indeksującym; ta dyrektywa została nieoficjalnie uznana przez Internet.

Chociaż nie ma standardu ISO dla robots.txt, Googlebot ma swoje preferencje. Możesz dowiedzieć się więcej na ten temat tutaj.

Ale krótka wersja jest taka, że możesz po prostu utworzyć plik .txt o nazwie robots i przekazać mu wytyczne dotyczące zachowania. Będziesz musiał go tak ustrukturyzować, aby każdy robot wiedział, jakie reguły go dotyczą.

Oto przykład:

User-Agent: *
Disallow: / wp-admin /
Allow: /wp-admin/admin-ajax.php

Sitemap: https://example.com/sitemap.xml

Jest to krótki i słodki plik robots.txt, który prawdopodobnie znajdziesz w swojej witrynie. Tutaj jest to dla ciebie podzielone:

User-Agent – określa, które roboty powinny przestrzegać następujących reguł. Podczas gdy dobre boty będą zasadniczo przestrzegać dyrektyw, złe boty nie muszą tego robić.
Disallow – mówi robotom, aby nie indeksowały folderów / wp-admin /, w których przechowywanych jest wiele ważnych dokumentów dla WordPress.
Allow – informuje to boty, że pomimo przebywania w folderze / wp-admin / nadal możesz indeksować ten plik. Plik admin-ajax.php jest bardzo ważny, dlatego powinieneś pozostawić go otwartym dla botów.
Mapa witryny – jedną z najczęściej pomijanych linii jest dyrektywa dotycząca map witryn. Pomaga to Googlebotowi znaleźć mapę witryny XML i poprawić indeksowanie.

Meta Robots

Meta-roboty, będące nadal częścią dyrektyw robotów, to kod HTML, którego można użyć do określenia preferencji indeksowania.

Domyślnie wszystkie strony będą ustawione na index, follow – nawet jeśli nie określisz preferencji. Dodanie tego tagu nie pomoże Twojej stronie w crawlowaniu i indeksowaniu, ponieważ jest to ustawienie domyślne.

Jeśli jednak chcesz zatrzymać indeksowanie określonej strony, musisz to określić.

Chociaż powyższe dwa tagi różnią się technicznie od perspektywy dyrektywy w sprawie robotów, nie wydają się funkcjonować inaczej według Google.

Wcześniej określano noindex, aby zatrzymać indeksowanie strony. Ponadto zdecydujesz się również określić, czy strona powinna być nadal śledzona.

Ostatnio Google oświadczył, że niezindeksowane strony ostatecznie są traktowane jak 404 i traktują linki jako nofollow. Dlatego nie ma technicznej różnicy między określeniem opcji obserwuj a nofollow.

Jeśli jednak nie ufasz wszystkiemu, co twierdzi John Mueller, możesz użyć tagu noindex, follow, aby określić chęć bycia nadal crawlowanym.

Jest to coś, co Yoast wziął pod uwagę, więc zauważysz, że w najnowszych wersjach wtyczki Yoast SEO usunięto opcję paginacji noindex.

Wynika to z faktu, że jeśli Googlebot traktuje tag noindex jako 404, robienie tego w obrębie stronicowania jest okropnym pomysłem. Byłbym ostrożny i używałbym tego tylko w przypadku stron, których z radością nie chcesz indeksować.

Tagi X-Robots

Jest inny tag robota, którego ludzie tak naprawdę nigdy nie używają tak często, a jest potężny. Ale niewiele osób rozumie, dlaczego jest tak potężny.

Dzięki dyrektywom robots.txt i meta-robotom robot może słuchać, czy nie. Dotyczy to również Googlebota, może on nadal pingować strony, aby dowiedzieć się, czy są obecne.

Za pomocą tego nagłówka serwera możesz powiedzieć robotom, aby nie indeksowały Twojej witryny z serwera. Oznacza to, że nie będą mieli wyboru w tej sprawie, po prostu odmówi im się dostępu.

Można to zrobić za pomocą PHP lub dyrektyw Apache, ponieważ oba są przetwarzane po stronie serwera. .Htaccess jest preferowaną metodą blokowania określonych typów plików, a PHP dla określonych stron.

Kod PHP

Oto przykład kodu, którego użyłbyś do zablokowania strony za pomocą PHP. To proste, ale będzie przetwarzane po stronie serwera, zamiast być opcjonalne dla crawlerów.

header („X-Robots-Tag: noindex”, true);

Dyrektywa Apache

Oto przykład kodu, którego można użyć do zablokowania plików .doc i .pdf w serwerach SERP bez konieczności podawania każdego pliku PDF w pliku robots.txt.

Header set X-Robots-Tag „noindex, noarchive, nosnippet”

</FilesMatch>

Filar nr 2: Zrozumienie zachowań Crawlerów

Wiele osób będzie wiedziało, że roboty mogą indeksować Twoją witrynę na wiele sposobów. Oto podsumowanie tego, jak to wszystko działa:

Crawl Budget

Jeśli chodzi o indeksowanie budżetu, jest to coś, co istnieje tylko w zasadzie, ale nie w praktyce. Oznacza to, że nie ma możliwości sztucznego zawyżenia budżetu na indeksowanie.

Crawl budget to tyle czasu ile Google poświęci na przeszukanie Twojej witryny. Magasklepy z tysiącami produktów będą indeksowane w większym stopniu niż te z mikrostroną. Jednak na mikrowitrynie strony główne będą częściej indeksowane/crawlowane.

Jeśli masz problemy z zaindeksowaniem przez Google ważnych stron, prawdopodobnie jest to uzasadnione. Albo zostało zablokowane, albo ma niską wartość.

Zamiast próbować wymusić indeksowanie na stronach, konieczne może być usunięcie przyczyny problemu.

Możesz sprawdzić średnią szybkość indeksowania swojej witryny w Google Search Console> Statystyki indeksowania.

Depth First Crawling

Jednym ze sposobów, w jaki roboty mogą indeksować Twoją witrynę, jest zasada głębi. Zmusi to roboty do zejścia jak najgłębiej przed powrotem do hierarchii.

Jest to skuteczny sposób na indeksowanie witryny, jeśli chcesz znaleźć wewnętrzne strony z cenną zawartością w jak najkrótszym czasie. Jednak w wyniku tego najważniejsze strony nawigacyjne zostaną uprzywilejowane.

Świadomość, że roboty indeksujące mogą zachowywać się w ten sposób, pomoże w analizie problemów z witryną.

Breadth First Crawling

Jest to przeciwieństwo głębokości pierwszego indeksowania, ponieważ zachowuje strukturę witryny. Rozpocznie się od zaindeksowania każdej strony poziomu 1 przed zaindeksowaniem każdej strony poziomu 2.

Zalety tego rodzaju indeksowania polegają na tym, że w krótszym czasie prawdopodobnie wykryje więcej unikalnych adresów URL. Wynika to z tego, że porusza się po wielu kategoriach w Twojej witrynie.

Tak więc, zamiast zagłębiać się głęboko w króliczą norkę, ta metoda ma na celu znalezienie każdej króliczej nory przed wkopaniem głębiej w stronę internetową.

Chociaż jest to dobre dla zachowania architektury witryny, może być powolne, jeśli strony kategorii będą długo się długo ładować.

Efficiency Crawling

Istnieje wiele różnych sposobów indeksowania, ale najbardziej godne uwagi są dwa powyżej, a trzeci to indeksowanie wydajności. W tym miejscu robot nie najpierw obserwuje szerokość lub głębokość, ale zamiast tego bazuje na czasach reakcji.

Oznacza to, że jeśli Twoja witryna ma godzinę do zaindeksowania, wybierze wszystkie strony o niskim czasie odpowiedzi. W ten sposób prawdopodobnie zaindeksuje większą liczbę witryn w krótszym czasie. Stąd pochodzi termin „budżet indeksowania”.

Zasadniczo starasz się, aby Twoja witryna reagowała tak szybko, jak to możliwe. Robisz to, aby można było indeksować więcej stron w wyznaczonym czasie.

Szybkość serwera

Wiele osób nie wie, że internet jest fizycznie podłączony. Na całym świecie są miliony urządzeń do udostępniania i przekazywania plików.

Twoja witryna jest jednak gdzieś hostowana na serwerze. Aby Google i Twoi użytkownicy mogli otworzyć Twoją witrynę, będzie to wymagało połączenia z Twoim serwerem.

Im szybszy jest serwer, tym mniej czasu Googlebot musi czekać na ważne pliki.

Jeśli chodzi o SEO, opłaca się uzyskać dobrej jakości hosting w lokalizacji w pobliżu docelowych odbiorców. Zmniejszy to opóźnienie, a także czas oczekiwania na każdy plik. Jeśli jednak chcesz prowadzić międzynarodową dystrybucję, możesz skorzystać z CDN.

Sieci dystrybucji treści (CDN)

Ponieważ Googlebot indeksuje się z serwerów Google, mogą one fizycznie znajdować się bardzo daleko od serwera Twojej witryny. Oznacza to, że Google może zobaczyć twoją witrynę jako wolną, mimo że użytkownicy postrzegają ją jako szybką stronę.

Jednym ze sposobów obejścia tego jest skonfigurowanie sieci dystrybucji treści.

Istnieje wiele do wyboru, ale to naprawdę proste. Płacisz za rozpowszechnianie treści swojej witryny w sieci internetowej.

Tak właśnie działa, ale wiele osób pyta, dlaczego miałoby to pomóc?

Jeśli Twoja witryna jest rozpowszechniana w Internecie, fizyczną odległość między użytkownikiem końcowym a plikami można zmniejszyć. To ostatecznie oznacza, że wszystkie strony mają mniejsze opóźnienia i krótsze czasy ładowania.

Filar nr 3: Page Funnelling

Gdy zrozumiesz powyższe i zaindeksujesz zachowania botów, następne pytanie powinno brzmieć; jak mogę zmusić Google do indeksowania stron, które chcę?

Poniżej znajdziesz kilka świetnych wskazówek dotyczących wiązania luźnych stron w swojej witrynie, zarządzania ścieżkami i ponownego przeszukiwania głównych stron.

AHREFS Zepsute linki

Na początku każdej kampanii konieczne jest powiązanie wszelkich luźnych celów. Aby to zrobić, szukamy wszelkich uszkodzonych linków, które są pobierane w AHREFS.

Pomoże to nie tylko w prowadzeniu instytucji do Twojej witryny; pokaże uszkodzone linki, które zostały wybrane. Pomoże to usunąć wszelkie niezamierzone 404, które nadal są dostępne w Internecie.

Jeśli chcesz to szybko wyczyścić, możesz wyeksportować listę uszkodzonych linków, a następnie zaimportować je do ulubionej wtyczki przekierowania. Osobiście używamy Przekierowania i Proste przekierowania 301 do naszych przekierowań wordpress.

Podczas gdy przekierowanie domyślnie obejmuje import / eksport pliku csv, musisz uzyskać dodatkowy dodatek do prostych przekierowań 301. Nazywa się to zbiorczą aktualizacją i jest również bezpłatny.

Screaming Frog Broken Links

Podobnie jak powyżej, w Screaming Frog najpierw chcemy wyeksportować wszystkie błędy 404, a następnie dodać przekierowania. To powinno przenieść wszystkie twoje błędy do przekierowań 301.

Następnym krokiem do oczyszczenia witryny jest poprawienie wewnętrznych linków.

Podczas gdy 301 może przekazywać sygnały autorytetu i trafności, zwykle jest szybszy i bardziej wydajny, jeśli twój serwer nie przetwarza wielu przekierowań. Nabierz nawyku czyszczenia wewnętrznych linków i pamiętaj o optymalizacji tych kotwic!

Błędy indeksowania w Search Console

Innym miejscem, w którym można znaleźć błędy w ścieżce, jest Twoja Search Console. Może to być przydatny sposób na sprawdzenie, które błędy wykrył Googlebot.

Następnie wykonaj powyższe czynności, wyeksportuj je wszystkie do pliku csv i zbiorczo zaimportuj przekierowania. To naprawi prawie wszystkie błędy 404 w ciągu kilku dni. Dzięki temu Googlebot poświęci więcej czasu na indeksowanie odpowiednich stron, a mniej na uszkodzonych stronach.

Analiza dziennika serwera

Chociaż wszystkie powyższe narzędzia są przydatne, nie są absolutnie najlepszym sposobem na sprawdzenie nieefektywności. Wybierając wyświetlanie dzienników serwera za pomocą narzędzia Screaming Frog Log File Analyzer można znaleźć wszystkie błędy, które wykrył serwer.

Screaming Frog odfiltrowuje zwykłych użytkowników i skupia się głównie na botach wyszukiwania. Wydaje się, że przyniosłoby to takie same wyniki jak powyżej; ale zwykle jest bardziej szczegółowy.

Zawiera nie tylko wszystkie adresy URL Googlebota; ale możesz także wybrać inne roboty indeksujące, takie jak Bing i Yandex. Plus, ponieważ to każdy błąd, który wykrył Twój serwer – nie będziesz polegać na Google Search Console, aby być dokładnym.

Linkowanie wewnętrzne

Jednym ze sposobów poprawy szybkości indeksowania określonej strony jest użycie linków wewnętrznych. To proste, ale możesz poprawić swoje obecne podejście.

Korzystając z analizatora plików dziennika krzyczących plików z góry, możesz zobaczyć, które strony uzyskują najwięcej trafień od Googlebota. Jeśli jest indeksowany regularnie przez cały miesiąc; istnieje duża szansa, że znalazłeś kandydata do wewnętrznego linkowania.

Na tej stronie można dodawać wewnętrzne linki do innych podstawowych postów, co pomoże Googlebotowi przejść do odpowiednich obszarów witryny.

Poniżej znajduje się przykład tego, w jaki sposób Matt regularnie dołącza linki wewnętrzne. To pomaga wam znaleźć więcej niesamowitych treści; a także pomaga Googlebotowi uszeregować swoją witrynę.

Filar 4: Wymuszanie crawla

Jeśli Googlebot wykonuje indeksowanie witryny i nie znajduje głównych stron, jest to zwykle duży problem. Lub jeśli Twoja witryna jest zbyt duża i nie prowadzą do stron, które chcesz zaindeksować – może to zaszkodzić Twojej strategii SEO.

Na szczęście istnieją sposoby wymuszenia indeksowania w Twojej witrynie. Najpierw jednak należy ostrzec kilka słów o tym podejściu:

Jeśli Twoja witryna nie jest regularnie indeksowana przez Googlebota, zwykle jest to dobry powód. Najbardziej prawdopodobną przyczyną jest to, że Google uważa, że Twoja witryna nie jest cenna.

Innym dobrym powodem, dla którego nie można zaindeksować strony, jest jej nadęty. Jeśli próbujesz zaindeksować miliony stron; Twoim problemem są miliony stron, a nie fakt, że nie są indeksowane.

W naszej agencji SEO The Search Initiative widzieliśmy przykłady witryn, którym oszczędzono kary Panda, ponieważ ich zdolność do indeksowania była zbyt zła, aby Google mógł znaleźć cienkie strony z treścią. Jeśli po raz pierwszy naprawimy problem z indeksowaniem bez poprawiania cienkiej zawartości – skończylibyśmy karą.

Ważne jest, aby naprawić wszystkie problemy z witryną, jeśli chcesz cieszyć się długimi rankingami.

Sitemap.xml

Wydaje się to dość oczywiste, ale ponieważ Google korzysta z map witryn XML do indeksowania witryny, pierwszą metodą byłoby wykonanie mapy witryny.

Po prostu weź wszystkie adresy URL, które chcesz zaindeksować, a następnie uruchom tryb listy Screaming Frog, wybierając opcję List z menu:

Następnie możesz przesłać adresy URL z jednej z następujących opcji w menu:

Z pliku
Wprowadzić ręcznie
Wklej
Pobierz mapę witryny
Pobierz Indeks map witryn

Następnie po zindeksowaniu wszystkich adresów URL, które chcesz zaindeksować, możesz po prostu użyć funkcji Sitemap do wygenerowania mapy witryny XML.

Prześlij to do katalogu głównego, a następnie prześlij do Google Search Console, aby szybko usunąć zduplikowane strony lub strony niezindeksowane.

Fetch & Request Indexing

Jeśli masz tylko niewielką liczbę stron, które chcesz zindeksować, użycie narzędzia Pobierz i indeksuj żądania jest bardzo przydatne.

Działa świetnie w połączeniu z przesyłaniem map witryn, aby skutecznie ponownie zindeksować witrynę w krótkim okresie czasu. Nie ma wiele do powiedzenia, poza tym, że można je znaleźć w Google Search Console> Indeksowanie> Pobierz jako Google.

Link Building

Ma sens, że jeśli chcesz, aby strona stała się bardziej widoczna i bardziej prawdopodobne, że zostanie zaindeksowana; rzucanie linkami pomoże ci.

Zwykle 1-2 przyzwoite linki mogą pomóc umieścić twoją stronę na mapie. Wynika to z faktu, że Google będzie indeksować inną stronę, a następnie odkryć kotwicę w stosunku do Twojej. Nie pozostawiając Googlebotowi wyboru, jak tylko zaindeksować nową stronę.

Korzystanie z niskiej jakości linków do poduszek może również działać, ale polecam celowanie w linki wysokiej jakości. W końcu zwiększy to prawdopodobieństwo zaindeksowania, ponieważ treści dobrej jakości będą częściej indeksowane.

Narzędzia indeksujące

Zanim zaczniesz używać narzędzi do indeksowania, prawdopodobnie powinieneś trafić na dno lufy i zabraknąć pomysłów.

Jeśli Twoje strony są dobrej jakości, można je indeksować, w mapie witryny, są pobierane i żądane, a niektóre linki zewnętrzne nie zostały jeszcze zaindeksowane – możesz spróbować innej metody.

Wiele osób korzysta z narzędzi do indeksowania jako skrótu i domyślnie do niego, ale w większości przypadków jest to strata pieniędzy. Rezultaty są często niewiarygodne, a jeśli zrobiłeś wszystko jeszcze dobrze, to naprawdę nie powinieneś mieć problemu.

Możesz jednak użyć narzędzi, takich jak Lightspeed Indexer, aby wymusić indeksowanie na swoich stronach. Istnieje wiele innych i wszystkie mają swoje unikalne zalety.

Większość z tych narzędzi działa, wysyłając pingi do wyszukiwarek, podobnie jak Pingomatic.

Podsumowanie

Jeśli chodzi o indeksowanie witryny, istnieje mnóstwo różnych sposobów rozwiązania każdego napotkanego problemu. Sposobem na długoterminowy sukces będzie ustalenie, które podejście jest najlepsze dla wymagań Twojej witryny.

Moja rada dla każdej osoby będzie następująca:

Postaraj się zrozumieć podstawową budowę i wzajemne połączenia Internetu.

Bez tego fundamentu reszta SEO staje się serią magicznych sztuczek. Jeśli jednak odniesiesz sukces, wszystko inne na temat SEO zostanie zdemistyfikowane.

Pamiętaj, że algorytm jest w dużej mierze matematyczny. Dlatego nawet twoją treść można zrozumieć za pomocą szeregu prostych równań.

Indeksowanie witryny w Google – 4 filary

Filar nr 1: Blokowanie stron

Robots.txt

Meta Robots

Tagi X-Robots

Filar nr 2: Zrozumienie zachowań Crawlerów

Crawl Budget

Depth First Crawling

Efficiency Crawling

Szybkość serwera

Sieci dystrybucji treści (CDN)

Filar nr 3: Page Funnelling

AHREFS Zepsute linki

Screaming Frog Broken Links

Błędy indeksowania w Search Console

Analiza dziennika serwera

Linkowanie wewnętrzne

Filar 4: Wymuszanie crawla

Sitemap.xml

Fetch & Request Indexing

Link Building

Narzędzia indeksujące

Podsumowanie

Google Moja Firma dodaje więcej narzędzi, wprowadza wyszukiwalne @shortnames

7 Sprawdzonych metod raportowania SEO Najlepsze praktyki zwiększające retencję klientów

Rubi-Con

Jak Usunąć Tik Toka w Kilku Prostych Krokach

Odkryj Najlepsze Hasztagi na TikToka

Indeksowanie witryny w Google – 4 filary

Filar nr 1: Blokowanie stron

Robots.txt

Meta Robots

Tagi X-Robots

Filar nr 2: Zrozumienie zachowań Crawlerów

Crawl Budget

Depth First Crawling

Breadth First Crawling

Efficiency Crawling

Szybkość serwera

Sieci dystrybucji treści (CDN)

Filar nr 3: Page Funnelling

AHREFS Zepsute linki

Screaming Frog Broken Links

Błędy indeksowania w Search Console

Analiza dziennika serwera

Linkowanie wewnętrzne

Filar 4: Wymuszanie crawla

Sitemap.xml

Fetch & Request Indexing

Link Building

Narzędzia indeksujące

Podsumowanie

Related posts

Google Moja Firma dodaje więcej narzędzi, wprowadza wyszukiwalne @shortnames

7 Sprawdzonych metod raportowania SEO Najlepsze praktyki zwiększające retencję klientów