Breadcrumb SEO, Python 3 i Oncrawl: w drodze do automatyzacji!

Opublikowany: 2021-04-14

Nauczmy się, jak automatycznie tworzyć segmentację opartą na bułce tartej za pomocą OnCrawl i Pythona 3.

Co to jest segmentacja w Oncrawl?

Oncrawl używa segmentacji, aby podzielić zestaw stron na grupy. Ułatwia to analizowanie danych z raportów indeksowania, analizy logów i innych raportów z analiz krzyżowych, które łączą dane indeksowania z Google Analytics, Google Search Console, AT Internet, Adobe Analytics lub Majestic w przypadku linków zwrotnych.

Dlaczego tworzenie segmentacji jest ważne?

Po zakończeniu indeksowania najważniejszą rzeczą do zrobienia jest utworzenie niestandardowej segmentacji. Dzięki temu możesz czytać analizy z perspektywy, która najlepiej pasuje do Twojej witryny i jej struktury.

Istnieje wiele sposobów na segmentowanie stron Twojej witryny i nie ma na to dobrego ani złego sposobu. Na przykład możliwe jest śledzenie struktury witryny na podstawie struktury adresów URL.

Na przykład ten rodzaj adresu URL „ https://www.mydomain.com/news/canada/politics ” można łatwo podzielić na segmenty w następujący sposób:

  • Grupa do odizolowania strony głównej
  • Grupa dla wszystkich wiadomości
  • Podgrupa dla katalogu kanadyjskiego
  • Podgrupa katalogu Polityka

Jak widać, możliwe jest utworzenie do 3 poziomów głębi dla swoich segmentacji. Pozwala to skoncentrować się na określonych grupach lub podgrupach w analizie SEO bez konieczności przełączania segmentacji.

Jak utworzyć podstawową segmentację?

Powinieneś wiedzieć, że Oncrawl sam zajmuje się tworzeniem pierwszej segmentacji. Jest to oparte na „Pierwszej ścieżce” lub pierwszym katalogu napotkanym w adresach URL.
Dzięki temu analiza będzie dostępna natychmiast po zakończeniu indeksowania.
Możliwe, że ta segmentacja nie odzwierciedla struktury Twojej witryny lub chcesz analizować rzeczy pod innym kątem.
Zamierzasz więc utworzyć nową segmentację za pomocą tego, co nazywamy OQL, co oznacza język zapytań Oncrawl. To trochę jak SQL, tylko o wiele prostsze i bardziej intuicyjne:

Możliwe jest również użycie operatorów warunkowych AND/OR, aby były jak najbardziej precyzyjne:

Segmentacja moich stron przy użyciu różnych metod

Korzystanie z innych wskaźników KPI

Segmentacje oparte na adresach URL są dobre, ale byłoby idealnie, gdybyśmy mogli również połączyć inne KPI, takie jak grupowanie adresów URL zaczynających się od /car-rental/ i których H1 zawiera wyrażenie „ Car rental agency ” i inną grupę, w której H1 będzie „ Agencje wynajmu komunalnego ”, czy to możliwe?

Tak, to możliwe! Tworząc swoje segmentacje masz do dyspozycji wszystkie KPI, których używamy, i to nie tylko te z crawlera, ale również te z konektorów. To sprawia, że ​​tworzenie segmentacji jest bardzo wydajne i pozwala mieć całkowicie różne kąty analizy!

Na przykład uwielbiam tworzyć segmentację przy użyciu średniej pozycji adresów URL dzięki łącznikowi Google Search Console.

W ten sposób mogę łatwo zidentyfikować adresy URL znajdujące się głęboko w mojej strukturze, które nadal działają, lub adresy URL w pobliżu mojej strony głównej, które znajdują się na stronie 2 Google.

Widzę, czy te strony mają zduplikowaną treść, pusty tag tytułu, czy otrzymują wystarczającą liczbę linków… Widzę też, jak Googlebot zachowuje się na tych stronach. Czy częstotliwość indeksowania jest dobra czy zła? Krótko mówiąc, pomaga mi ustalać priorytety i podejmować decyzje, które będą miały realny wpływ na moje SEO i ROI.

Dane dotyczące indeksowania³

Rozszerz swoją analizę o płynne połączenia z dodatkowymi zestawami danych. Przeanalizuj swoją strategię SEO na podstawie danych o linkach zwrotnych, ruchu SEO, rankingach i niestandardowych zestawach danych z Twojego CRM, rozwiązania do monitorowania lub dowolnego innego źródła.
Ucz się więcej

Korzystanie z pozyskiwania danych

Jeśli nie znasz naszej funkcji Data Ingest, zapraszam najpierw do przeczytania tego artykułu na ten temat. To kolejne bardzo potężne narzędzie, które pozwala dodawać zewnętrzne źródła danych do Oncrawl.
Na przykład możesz dodać dane z SEMrush, Ahrefs, Babbar.tech… Zaletą jest to, że możesz pogrupować swoje strony według metryk zaczerpniętych z tych narzędzi i przeprowadzić analizę na podstawie danych, które Cię interesują, nawet jeśli nie są natywnie w Oncrawl.

Ostatnio współpracowałem z globalną grupą hotelową. Używają wewnętrznej metody punktacji, aby wiedzieć, czy rekordy hotelu są wypełnione poprawnie, czy mają zdjęcia, filmy, treści itp. Określają procent ukończenia, którego użyliśmy do analizy krzyżowej danych indeksowania i pliku dziennika.

Wynik pozwala nam zorientować się, czy Googlebot spędza więcej czasu na poprawnie wypełnionych stronach, czy niektóre strony z wynikiem powyżej 90% nie są zbyt głębokie, nie otrzymują wystarczającej liczby linków… Pozwala nam to pokazać, że im wyższy wynik, im więcej odwiedzin strony otrzymują, tym bardziej są one eksplorowane przez Google i tym lepsza jest ich pozycja w Google SERP. Argument nie do powstrzymania, aby zachęcić hotelarzy do uzupełnienia listy hoteli!

Utwórz segmentację w oparciu o ścieżkę nawigacyjną SEO

To jest temat tego artykułu, więc przejdźmy do sedna sprawy. Czasami trudno jest podzielić strony w witrynie, jeśli struktura adresów URL nie dołącza stron do określonego katalogu. Dzieje się tak często w przypadku witryn e-commerce, gdzie wszystkie strony produktów znajdują się na samym początku. W związku z tym niemożliwe jest ustalenie na podstawie adresu URL, do której grupy należy strona.
Aby pogrupować strony razem, musimy znaleźć sposób na zidentyfikowanie grupy, do której należą. W związku z tym wpadliśmy na pomysł, aby pobrać ślad SEO dla każdego adresu URL i kategoryzować go na podstawie wartości w SEO, korzystając z funkcji Scraper oferowanej przez Oncrawl.

SEO Skrobanie bułki tartej z Oncrawl

Jak widzieliśmy powyżej, ustawimy regułę skrobania, aby odzyskać ślad z okruszków chleba. W większości przypadków jest to dość proste, ponieważ możemy pobrać informacje w div , a następnie pola każdego poziomu są w
Listy ul i li :

Czasami również możemy łatwo odzyskać informacje dzięki ustrukturyzowanemu typowi danych Breadcrumb. Dzięki temu łatwo będzie pobrać wartość pola „nazwa” dla każdej pozycji.

Oto przykład zasady skrobania, której używam:

Lub ta reguła: //li[contains(@class, "current-menu-ancestor") or contains(@class, "current-menu-parent") or contains(@class, "current-menu-item")]/a/text()

Tak więc otrzymuję cały span itemprop=”title” z Xpath, a następnie używam wyrażenia regularnego, aby wyodrębnić wszystko po “> , które nie są znakiem > . Jeśli chcesz dowiedzieć się więcej o Regex, proponuję przeczytać ten artykuł na ten temat i naszą ściągawkę na temat Regex.

Jako dane wyjściowe otrzymuję kilka takich wartości:

Dla testowanego adresu URL będę miał pole „Breadcrumb” z 3 wartościami:

  • Człowiek
  • koszulka polo
  • Koszulka polo z krótkim rękawem
 importuj json
importuj losowo
żądania importu

# Autentyk
# Dwa sposoby, z x-oncrawl-token niż można uzyskać w nagłówkach żądań z przeglądarki
# lub za pomocą tokena api tutaj: https://app.oncrawl.com/account/tokens
API_ACCESS_TOKEN = ' '
# Ustaw identyfikator indeksowania w miejscu, w którym znajduje się niestandardowe pole breadcrumb
CZOŁGAĆ SIĘ_
# Zaktualizuj zakazane elementy bułki tartej, których nie chcesz otrzymywać w segmentacji
FORBIDDEN_BREADCRUMB_ITEMS = ('Accueil',)
FORBIDDEN_BREADCRUMB_ITEMS_LIST = [
                                 v.strip() 
                                 dla v w FORBIDDEN_BREADCRUMB_ITEMS.split(',')
                                 ]



def kolor_losowy():
    random_number = random.randint (0, 16777215)
    hex_number = str(hex(losowa_liczba))
    numer_szesnastkowy = numer_szesnastkowy[2:].ljust(6, '0')
    zwróć f'#{hex_number}'


def wartość_do_grupy(wartość):
    zwrócić {
        'kolor': random_color(),
        'nazwa': wartość,
        'oql': {'lub': [{'pole': ['custom_Breadcrumb', 'równa się', wartość]}]}
    }


def walk_dict(słownik, poziom=0):
    ret = {
        "ikona": "tablica rozdzielcza",
        „możliwy do przeniesienia”: Fałsz,
        "name": "bułka tarta"
    }

Teraz, gdy reguła jest zdefiniowana, mogę rozpocząć przeszukiwanie, a Oncrawl automatycznie pobierze wartości z menu nawigacyjnego i skojarzy je z każdym przeszukiwanym adresem URL.

Zautomatyzuj tworzenie wielopoziomowej segmentacji za pomocą Pythona

Teraz, gdy mam już wszystkie wartości nawigatora SEO dla każdego adresu URL, użyjemy skryptu python automatyzacji SEO w Google Colab, aby automatycznie utworzyć segmentację zgodną z Oncrawl.

Do samego skryptu używamy 3 bibliotek, którymi są:

  • json (Aby wygenerować naszą segmentację napisaną w Json)
  • csv
  • losowo (do generowania szesnastkowych kodów kolorów dla każdej grupy)

Po uruchomieniu skrypt automatycznie zajmie się tworzeniem segmentacji w Twoim projekcie!

Podgląd danych w analizach

Teraz, gdy nasza segmentacja została utworzona, możliwy jest dostęp do różnych analiz z segmentowanym widokiem opartym na mojej ścieżce nawigacyjnej.

Rozkład stron według grup i głębokości


Wydajność rankingowa (GSC)


Częstotliwość indeksowania przez Googlebota


Wizyty SEO i współczynnik aktywnych stron


Kody statusu napotykane przez użytkowników a sesje SEO


Monitorowanie kodów stanu napotkanych przez Googlebota


Dystrybucja Inrank

I oto jesteśmy, właśnie stworzyliśmy segmentację automatycznie dzięki skryptowi wykorzystującemu Python i OnCrawl. Wszystkie strony są teraz pogrupowane według ścieżki nawigacyjnej i to na 3 poziomach głębokości:

Zaletą jest to, że możemy teraz monitorować różne KPI (indeksowanie, głębokość, linki wewnętrzne, budżet indeksowania, sesje SEO, wizyty SEO, wyniki w rankingu, czas ładowania) dla każdej grupy i podgrupy stron.

Przyszłość SEO z Oncrawl

Prawdopodobnie myślisz, że świetnie jest mieć tę „po wyjęciu z pudełka”, ale niekoniecznie masz czas, aby to wszystko zrobić. Dobrą wiadomością jest to, że pracujemy nad bezpośrednim zintegrowaniem tej funkcji w najbliższej przyszłości.

Oznacza to, że wkrótce będzie można jednym kliknięciem automatycznie tworzyć segmentację dowolnego pola lub pola ze złomowania z Przetwarzania danych . A to zaoszczędzi mnóstwo czasu, jednocześnie pozwalając na wykonanie niesamowitej przekrojowej analizy SEO.

Wyobraź sobie, że możesz pobrać dowolne dane z kodu źródłowego swoich stron lub zintegrować dowolny KPI dla każdego adresu URL. Jedynym ograniczeniem jest Twoja wyobraźnia!

Na przykład możesz pobrać cenę sprzedaży produktów i zobaczyć głębokość, Inrank, linki zwrotne, budżet indeksowania zgodnie z ceną.

Ale możemy również pobrać nazwiska autorów twoich artykułów medialnych i zobaczyć, kto radzi sobie najlepiej, i zastosować najlepsze metody pisania.

Możemy pobrać recenzje i oceny Twoich produktów i sprawdzić, czy najlepsze produkty są dostępne za pomocą minimum kliknięć, otrzymują wystarczającą liczbę linków, mają linki zwrotne, są dobrze indeksowane przez Googlebota itp.

Możemy zintegrować Twoje dane biznesowe, takie jak obrót, marża, współczynnik konwersji, Twoje wydatki na Google Ads.

Teraz do Ciebie należy wyobrażenie sobie, w jaki sposób możesz porównywać dane, aby poszerzyć swoją analizę i podjąć właściwe decyzje SEO.

Chcesz przetestować automatyczną segmentację na ścieżce nawigacyjnej? Skontaktuj się z nami przez chatbox bezpośrednio z Oncrawl.

Miłego raczkowania!

Rozpocznij darmowy okres próbny