Breadcrumb SEO, Python 3 dan Oncrawl: menuju otomatisasi!

Diterbitkan: 2021-04-14

Mari pelajari cara membuat segmentasi berbasis breadcrumb secara otomatis dengan OnCrawl dan Python 3.

Apa itu segmentasi di Oncrawl?

Oncrawl menggunakan segmentasi untuk membagi satu set halaman menjadi beberapa grup. Ini membuatnya sangat mudah untuk menganalisis data dari laporan perayapan, analisis log, dan laporan analisis silang lainnya yang memadukan data perayapan dengan Google Analytics, Google Search Console, AT Internet, Adobe Analytics, atau Majestic untuk tautan balik.

Mengapa penting untuk membuat segmentasi?

Setelah perayapan Anda selesai, membuat segmentasi khusus adalah hal terpenting yang harus dilakukan. Ini memungkinkan Anda membaca analisis dari perspektif yang paling sesuai dengan situs Anda dan strukturnya.

Ada banyak cara untuk mengelompokkan halaman situs Anda, dan tidak ada cara yang benar atau salah untuk melakukannya. Misalnya, dimungkinkan untuk melacak struktur situs Anda berdasarkan struktur URL.

Misalnya, jenis URL " https://www.mydomain.com/news/canada/politics " ini, dapat dengan mudah disegmentasikan seperti ini:

  • Grup untuk mengisolasi Beranda
  • Grup untuk semua berita
  • Sub-grup untuk direktori Kanada
  • Sub-subgrup untuk direktori Politik

Seperti yang Anda lihat, dimungkinkan untuk membuat hingga 3 tingkat kedalaman untuk segmentasi Anda. Ini memungkinkan Anda untuk fokus pada grup atau sub-grup tertentu dalam analisis SEO Anda, tanpa harus beralih segmentasi.

Bagaimana cara membuat segmentasi dasar?

Anda harus tahu bahwa Oncrawl menangani pembuatan segmentasi pertama, dengan sendirinya. Ini didasarkan pada "Jalur pertama" atau direktori pertama yang ditemukan di URL.
Ini memungkinkan Anda untuk memiliki analisis yang tersedia segera setelah perayapan Anda selesai.
Mungkin segmentasi ini tidak mencerminkan struktur situs Anda, atau Anda ingin menganalisis berbagai hal dari sudut yang berbeda.
Jadi Anda akan membuat segmentasi baru menggunakan apa yang kami sebut OQL, yang merupakan singkatan dari Oncrawl Query Language. Ini seperti SQL, hanya lebih sederhana dan lebih intuitif:

Dimungkinkan juga untuk menggunakan operator kondisi AND/OR setepat mungkin:

Segmentasi halaman saya menggunakan metode yang berbeda

Menggunakan KPI lain

Segmentasi berdasarkan URL bagus, tetapi akan lebih sempurna jika kita juga dapat menggabungkan KPI lain, seperti mengelompokkan URL yang dimulai dengan /car-rental/ dan yang H1-nya memiliki ekspresi “ Agen persewaan mobil ” dan grup lain di mana H1 akan “ Agen sewa utilitas “, apakah itu mungkin?

Iya itu mungkin! Selama pembuatan segmentasi, Anda memiliki semua KPI yang kami gunakan, dan tidak hanya dari crawler, tetapi juga dari konektor. Ini membuat pembuatan segmentasi menjadi sangat kuat dan memungkinkan Anda untuk memiliki sudut analisis yang sama sekali berbeda!

Misalnya, saya suka membuat segmentasi menggunakan posisi rata-rata URL berkat konektor Google Search Console.

Dengan cara ini, saya dapat dengan mudah mengidentifikasi URL jauh di dalam struktur saya yang masih berfungsi, atau URL yang dekat dengan beranda saya yang ada di halaman 2 Google.

Saya dapat melihat apakah halaman ini memiliki konten duplikat, tag judul kosong, jika mereka menerima tautan yang cukup… Saya juga dapat melihat bagaimana Googlebot berperilaku di halaman ini. Apakah frekuensi perayapan baik atau buruk? Singkatnya, ini membantu saya memprioritaskan dan membuat keputusan yang akan berdampak nyata pada SEO dan ROI saya.

Data Perayapan³

Perluas analisis Anda dengan koneksi mulus ke kumpulan data tambahan. Analisis strategi SEO Anda berdasarkan data tentang backlink, lalu lintas SEO, peringkat, dan kumpulan data khusus dari CRM Anda, solusi pemantauan, atau sumber lainnya.
Belajarlah lagi

Menggunakan Data Ingesti

Jika Anda belum familiar dengan fitur Data Ingest kami, saya mengundang Anda untuk membaca artikel ini terlebih dahulu. Ini adalah alat lain yang sangat kuat yang memungkinkan Anda menambahkan sumber data eksternal ke Oncrawl.
Misalnya, Anda dapat menambahkan data dari SEMrush, Ahrefs, Babbar.tech… Keuntungannya adalah Anda dapat mengelompokkan halaman Anda menurut metrik yang diambil dari alat ini dan melakukan analisis berdasarkan data yang Anda minati, meskipun tidak asli di Oncrawl.

Baru-baru ini, saya bekerja dengan grup hotel global. Mereka menggunakan metode penilaian internal untuk mengetahui apakah catatan hotel diisi dengan benar, apakah ada gambar, video, konten, dll... Mereka menentukan persentase penyelesaian, yang kami gunakan untuk menganalisis silang data perayapan dan log file.

Hasilnya memungkinkan kita untuk mengetahui apakah Googlebot menghabiskan lebih banyak waktu pada halaman yang diisi dengan benar, untuk mengetahui apakah beberapa halaman dengan skor lebih dari 90% terlalu dalam, tidak menerima tautan yang cukup… Hal ini memungkinkan kita untuk menunjukkan bahwa semakin tinggi skor, semakin banyak kunjungan yang diterima halaman, semakin banyak mereka dijelajahi oleh Google, dan semakin baik posisi mereka di SERP Google. Argumen tak terbendung untuk mendorong pelaku bisnis perhotelan mengisi daftar hotel mereka!

Buat segmentasi berdasarkan jejak remah roti SEO

Ini adalah subjek dari artikel ini jadi mari kita ke inti masalahnya. Terkadang sulit untuk mengelompokkan halaman situs Anda, jika struktur URL tidak melampirkan halaman ke direktori tertentu. Ini sering terjadi pada situs e-niaga, di mana semua halaman produk berada di akarnya. Oleh karena itu, tidak mungkin untuk mengetahui dari URL grup mana halaman tersebut berada.
Untuk mengelompokkan halaman bersama, kita harus menemukan cara untuk mengidentifikasi grup tempat mereka berasal. Oleh karena itu, kami memiliki ide untuk mengambil jejak seo remah roti dari setiap URL dan mengkategorikannya berdasarkan nilai dalam seo remah roti, menggunakan fungsi Scraper yang ditawarkan oleh Oncrawl.

Pengikisan Breadcrumb SEO dengan Oncrawl

Seperti yang kita lihat di atas, kita akan membuat aturan scraping untuk mengambil jejak breadcrumb. Sebagian besar waktu itu cukup sederhana karena kita dapat pergi dan mengambil informasi dalam div , kemudian bidang setiap level berada di
daftar ul dan li :

Terkadang juga kita dapat dengan mudah mengambil informasi berkat tipe data terstruktur Breadcrumb. Jadi akan mudah untuk mengambil nilai bidang "nama" untuk setiap posisi.

Berikut adalah contoh aturan scraping yang saya gunakan:

Atau aturan ini: //li[contains(@class, "current-menu-ancestor") or contains(@class, "current-menu-parent") or contains(@class, "current-menu-item")]/a/text()

Jadi saya mendapatkan semua span itemprop=”title” dengan Xpath, kemudian menggunakan ekspresi reguler untuk mengekstrak semuanya setelah “> yang bukan karakter > . Jika Anda ingin tahu lebih banyak tentang Regex, saya sarankan Anda membaca artikel ini tentang subjek dan lembar Cheat kami tentang Regex.

Saya mendapatkan beberapa nilai seperti ini sebagai output:

Untuk URL yang diuji, saya akan memiliki bidang "Breadcrumb" dengan 3 nilai:

  • Pria
  • Kemeja polo
  • Polo lengan pendek
 impor json
impor acak
permintaan impor

# Asli
# Dua cara, dengan x-oncrawl-token daripada yang bisa Anda dapatkan di header permintaan dari browser
# atau dengan token api di sini: https://app.oncrawl.com/account/tokens
API_ACCESS_TOKEN = ' '
# Setel id perayapan di mana ada bidang khusus remah roti
MERANGKAK_
# Perbarui item remah roti terlarang yang tidak ingin Anda dapatkan di segmentasi
FORBIDDEN_BREADCRUMB_ITEMS = ('Accueil',)
FORBIDDEN_BREADCRUMB_ITEMS_LIST = [
                                 v.strip() 
                                 untuk v dalam FORBIDDEN_BREADCRUMB_ITEMS.split(',')
                                 ]



def random_color():
    random_number = random.randint(0, 16777215)
    hex_number = str(hex(angka_acak))
    hex_number = hex_number[2:].ljust(6, '0')
    kembali f'#{hex_number}'


def value_to_group(nilai):
    kembali {
        'warna': random_color(),
        'nama': nilai,
        'oql': {'atau': [{'field': ['custom_Breadcrumb', 'sama dengan', nilai]}]}
    }


def walk_dict(kamus, level=0):
    ret = {
        "ikon": "dasbor",
        "transposable": Salah,
        "nama": "remah roti"
    }

Sekarang setelah aturan ditentukan, saya dapat meluncurkan perayapan saya dan Oncrawl akan secara otomatis mengambil nilai remah roti dan mengaitkannya dengan setiap URL yang dirayapi.

Otomatiskan pembuatan segmentasi multi-level dengan Python

Sekarang saya memiliki semua nilai remah roti SEO untuk setiap URL, kami akan menggunakan skrip python otomatisasi seo di Google Colab untuk secara otomatis membuat segmentasi yang kompatibel dengan Oncrawl.

Untuk scriptnya sendiri, kami menggunakan 3 library yaitu:

  • json (Untuk menghasilkan segmentasi kami yang ditulis dalam Json)
  • csv
  • acak (Untuk menghasilkan kode warna heksadesimal untuk setiap grup)

Setelah skrip diluncurkan, skrip secara otomatis menangani pembuatan segmentasi dalam proyek Anda!

Pratinjau data dalam analisis

Sekarang setelah segmentasi kami dibuat, dimungkinkan untuk memiliki akses ke berbagai analisis dengan tampilan tersegmentasi berdasarkan jejak breadcrumb saya.

Distribusi halaman berdasarkan grup dan kedalaman


Performa peringkat (GSC)


Frekuensi perayapan Googlebot


Kunjungan SEO dan rasio halaman aktif


Kode status yang ditemukan oleh pengguna vs. sesi SEO


Pemantauan kode status yang ditemukan oleh Googlebot


Distribusi Inrank

Dan di sinilah kita, kita baru saja membuat segmentasi secara otomatis berkat skrip menggunakan Python dan OnCrawl. Semua halaman sekarang dikelompokkan menurut jejak remah roti dan ini pada 3 tingkat kedalaman:

Keuntungannya adalah kita sekarang dapat memantau KPI yang berbeda (Perayapan, kedalaman, tautan internal, Anggaran perayapan, sesi SEO, kunjungan SEO, kinerja Peringkat, Waktu Muat) untuk setiap grup dan sub-grup halaman.

Masa depan SEO dengan Oncrawl

Anda mungkin berpikir bahwa memiliki kemampuan "out of the box" itu bagus, tetapi Anda tidak selalu punya waktu untuk melakukan semuanya. Kabar baiknya adalah kami sedang berupaya agar fitur ini langsung terintegrasi dalam waktu dekat.

Ini berarti Anda akan segera dapat membuat segmentasi secara otomatis pada bidang atau bidang yang dihapus dari Data Ingest dengan satu klik sederhana. Dan itu akan menghemat banyak waktu Anda, sekaligus memungkinkan Anda melakukan analisis SEO lintas-bagian yang luar biasa.

Bayangkan bisa mengikis data apa pun dari kode sumber halaman Anda atau mengintegrasikan KPI apa pun untuk setiap URL. Satu-satunya batasan adalah imajinasi Anda!

Misalnya, Anda dapat mengambil harga jual produk dan melihat kedalaman, Inrank, backlink, anggaran perayapan sesuai harga.

Namun kami juga dapat mengambil nama penulis artikel media Anda dan melihat siapa yang berkinerja terbaik dan menerapkan metode penulisan yang paling berhasil.

Kami dapat mengambil ulasan dan peringkat produk Anda dan melihat apakah produk terbaik dapat diakses dengan klik minimum, menerima tautan yang cukup, memiliki tautan balik, dirayapi dengan baik oleh Googlebot, dll…

Kami dapat mengintegrasikan data bisnis Anda seperti omset, margin, tingkat konversi, pengeluaran Google Ads Anda.

Sekarang terserah Anda untuk membayangkan bagaimana Anda dapat melakukan referensi silang data untuk memperluas analisis Anda dan membuat keputusan SEO yang tepat.

Anda ingin menguji segmentasi otomatis pada jejak breadcrumb? Hubungi kami melalui kotak obrolan langsung dari dalam Oncrawl.

Nikmati perayapan Anda!

Mulai Uji coba Gratis Anda