Nowhere Left to Hide: Memblokir Konten dari Laba-laba Mesin Pencari
Diterbitkan: 2022-06-12TL;DR
- Jika Anda mempertimbangkan untuk mengecualikan konten dari mesin telusur, pertama-tama pastikan Anda melakukannya untuk alasan yang tepat.
- Jangan membuat kesalahan dengan berasumsi bahwa Anda dapat menyembunyikan konten dalam bahasa atau format yang tidak akan dipahami bot; itu strategi picik. Jadilah yang terdepan dengan mereka dengan menggunakan file robots.txt atau tag Meta Robots.
- Jangan lupa bahwa hanya karena Anda menggunakan metode yang disarankan untuk memblokir konten, Anda aman. Pahami bagaimana memblokir konten akan membuat situs Anda muncul di bot.
Kapan dan Bagaimana Mengecualikan Konten dari Indeks Mesin Pencari
Aspek utama SEO adalah meyakinkan mesin pencari bahwa situs web Anda memiliki reputasi baik dan memberikan nilai nyata bagi pencari. Dan agar mesin pencari dapat menentukan nilai dan relevansi konten Anda, mereka harus menempatkan diri mereka pada posisi pengguna.
Sekarang, perangkat lunak yang melihat situs Anda memiliki batasan tertentu yang secara tradisional dieksploitasi oleh SEO untuk menyembunyikan sumber daya tertentu dari mesin pencari. Bot terus berkembang, bagaimanapun, dan terus menjadi lebih canggih dalam upaya mereka untuk melihat halaman web Anda seperti yang dilakukan pengguna manusia di browser. Saatnya untuk memeriksa kembali konten di situs Anda yang tidak tersedia untuk bot mesin pencari, serta alasan mengapa tidak tersedia. Masih ada batasan dalam bot dan webmaster memiliki alasan yang sah untuk memblokir atau mengeksternalisasi konten tertentu. Karena mesin pencari mencari situs yang memberikan konten berkualitas kepada pengguna, biarkan pengalaman pengguna memandu proyek Anda dan sisanya akan diterapkan.
Mengapa Memblokir Konten Sama sekali?
- Konten pribadi. Membuat halaman diindeks berarti halaman tersebut tersedia untuk muncul di hasil pencarian, dan karena itu dapat dilihat oleh publik. Jika Anda memiliki halaman pribadi (informasi akun pelanggan, informasi kontak untuk individu, dll.), Anda ingin menjauhkannya dari indeks. (Beberapa situs tipe whois menampilkan informasi pendaftar dalam JavaScript untuk menghentikan scraper bot mencuri informasi pribadi.)
- Konten duplikat. Baik potongan teks (informasi merek dagang, slogan, atau deskripsi) atau seluruh halaman (misalnya, hasil penelusuran khusus dalam situs Anda), jika Anda memiliki konten yang muncul di beberapa URL di situs Anda, spider mesin telusur mungkin melihatnya sebagai konten berkualitas rendah . Anda dapat menggunakan salah satu opsi yang tersedia untuk memblokir halaman tersebut (atau sumber daya individual pada halaman) agar tidak diindeks. Anda dapat membuatnya terlihat oleh pengguna tetapi diblokir dari hasil pencarian, yang tidak akan merusak peringkat Anda untuk konten yang Anda inginkan muncul dalam pencarian.
- Konten dari sumber lain. Konten, seperti iklan, yang dibuat oleh sumber pihak ketiga dan digandakan di beberapa tempat di seluruh web, bukan merupakan bagian dari konten utama laman. Jika konten iklan tersebut diduplikasi berkali-kali di seluruh web, webmaster mungkin ingin mencegah iklan dilihat sebagai bagian dari halaman.
Itu Memperhatikan Mengapa, Bagaimana Dengan Bagaimana?
Saya sangat senang Anda bertanya. Salah satu metode yang digunakan untuk menjaga agar konten tidak terindeks adalah memuat konten dari sumber eksternal yang diblokir menggunakan bahasa yang tidak dapat diuraikan atau dijalankan oleh bot; itu seperti ketika Anda mengeja kata-kata kepada orang dewasa lain karena Anda tidak ingin balita di ruangan itu tahu apa yang Anda bicarakan. Masalahnya, balita dalam situasi ini semakin pintar. Untuk waktu yang lama, jika Anda ingin menyembunyikan sesuatu dari mesin pencari, Anda dapat menggunakan JavaScript untuk memuat konten itu, artinya pengguna mendapatkannya, bot tidak.
Tetapi Google sama sekali tidak malu-malu tentang keinginan mereka untuk mengurai JavaScript dengan bot mereka. Dan mereka mulai melakukannya; alat Ambil sebagai Google di Alat Webmaster memungkinkan Anda melihat laman individual seperti yang dilihat oleh bot Google.
Jika Anda menggunakan JavaScript untuk memblokir konten di situs Anda, Anda harus memeriksa beberapa halaman di alat ini; kemungkinan besar, Google melihatnya.
Namun, perlu diingat bahwa hanya karena Google dapat merender konten dalam JavaScript tidak berarti konten tersebut sedang di-cache. Alat "Ambil dan Render" menunjukkan kepada Anda apa yang dapat dilihat bot; untuk mengetahui apa yang sedang diindeks, Anda masih harus memeriksa versi halaman yang di-cache.
Ada banyak metode lain untuk mengeksternalisasi konten yang didiskusikan orang: iframe, AJAX, jQuery. Namun sejauh tahun 2012, eksperimen menunjukkan bahwa Google dapat merayapi tautan yang ditempatkan di iframe; jadi begitulah teknik itu. Faktanya, hari-hari berbicara dalam bahasa yang tidak dapat dipahami oleh bot akan segera berakhir.
Tetapi bagaimana jika Anda dengan sopan meminta bot untuk tidak melihat hal-hal tertentu? Memblokir atau melarang elemen di robots.txt atau tag Meta Robots Anda adalah satu-satunya cara tertentu (kependekan dari direktori server yang melindungi kata sandi) untuk menjaga elemen atau halaman agar tidak diindeks.
John Mueller baru-baru ini berkomentar bahwa konten yang dihasilkan dengan umpan AJAX/JSON akan “tidak terlihat oleh [Google] jika Anda melarang perayapan JavaScript Anda.” Lebih lanjut dia menjelaskan bahwa hanya dengan memblokir CSS atau JavaScript tidak akan selalu merusak peringkat Anda: “Jelas tidak ada 'CSS atau JavaScript yang tidak diizinkan dari perayapan, oleh karena itu algoritme kualitas melihat hubungan situs secara negatif'.” Jadi cara terbaik untuk menjauhkan konten dari indeks adalah dengan meminta mesin pencari untuk tidak mengindeks konten Anda. Ini bisa berupa URL individu, direktori, atau file eksternal.
Ini, kemudian, membawa kita kembali ke awal: mengapa. Sebelum memutuskan untuk memblokir konten Anda, pastikan Anda tahu mengapa Anda melakukannya, serta risikonya. Pertama-tama, memblokir file CSS atau JavaScript Anda (terutama yang berkontribusi besar pada tata letak situs Anda) berisiko; itu dapat, antara lain, mencegah mesin telusur melihat apakah halaman Anda dioptimalkan untuk seluler. Tidak hanya itu, tetapi setelah peluncuran Panda 4.0, beberapa situs yang terpukul keras dapat pulih dengan membuka blokir CSS dan JavaScript mereka yang akan menunjukkan bahwa mereka secara khusus ditargetkan oleh algoritma Google untuk memblokir elemen-elemen ini dari bot.
Satu lagi risiko yang Anda hadapi saat memblokir konten: spider mesin telusur mungkin tidak dapat melihat apa yang diblokir, tetapi mereka tahu bahwa ada sesuatu yang diblokir, sehingga mereka mungkin terpaksa membuat asumsi tentang konten tersebut. Mereka tahu bahwa iklan, misalnya, sering disembunyikan di iframe atau bahkan CSS; jadi jika Anda memiliki terlalu banyak konten yang diblokir di dekat bagian atas halaman, Anda berisiko terkena Algoritma Tata Letak Halaman "Top Heavy". Setiap webmaster yang membaca ini yang sedang mempertimbangkan untuk menggunakan iframe harus sangat mempertimbangkan untuk berkonsultasi dengan SEO yang memiliki reputasi baik terlebih dahulu. (Masukkan promo BCI tak tahu malu di sini.)