Saklanacak Yer Kalmadı: Arama Motoru Örümceklerinden İçeriği Engelleme

Yayınlanan: 2022-06-12

TL; DR

  1. İçeriği arama motorlarından hariç tutmayı düşünüyorsanız, öncelikle bunu doğru nedenlerle yaptığınızdan emin olun.
  2. İçeriği, botların anlayamayacağı bir dilde veya biçimde gizleyebileceğinizi varsayma hatasına düşmeyin; bu kısa görüşlü bir strateji. robots.txt dosyasını veya Meta Robots etiketini kullanarak onlara karşı açık olun.
  3. İçeriği engellemek için önerilen yöntemleri kullandığınız için güvende olduğunuzu unutmayın. İçeriği engellemenin sitenizin botlara nasıl görünmesini sağlayacağını anlayın.

Bir Arama Motoru Dizininden İçerik Ne Zaman ve Nasıl Dışlanır?

SEO'nun önemli bir yönü, arama motorlarını web sitenizin saygın olduğuna ve arama yapanlara gerçek değer sağladığına ikna etmektir. Arama motorlarının içeriğinizin değerini ve alaka düzeyini belirlemesi için kendilerini bir kullanıcının yerine koymaları gerekir.

Şimdi, sitenize bakan yazılımın, SEO'ların belirli kaynakları arama motorlarından gizli tutmak için geleneksel olarak yararlandığı belirli sınırlamaları vardır. Bununla birlikte, botlar gelişmeye devam ediyor ve web sayfanızı bir insan kullanıcının tarayıcıda yapacağı gibi görme çabalarında sürekli olarak daha karmaşık hale geliyor. Sitenizdeki arama motoru botlarının erişemediği içeriği ve neden kullanılamamasının nedenlerini yeniden incelemenin zamanı geldi. Botlarda hala sınırlamalar var ve web yöneticilerinin belirli içerik parçalarını engellemek veya haricileştirmek için meşru nedenleri var. Arama motorları, kullanıcılara kaliteli içerik sunan siteler aradığı için, kullanıcı deneyiminin projelerinizi yönlendirmesine izin verin, gerisi yerine geçecektir.

İçeriği Neden Hiç Engellemelisiniz?

arama motoru örümcekleri ne zaman engellenir
Fotoğraf Steven Ferris (CC BY 2.0), değiştirilmiş
  1. Özel içerik. Sayfaların dizine eklenmesi, arama sonuçlarında görünmeye hazır oldukları ve bu nedenle herkese görünür oldukları anlamına gelir. Özel sayfalarınız varsa (müşterilerin hesap bilgileri, kişilerin iletişim bilgileri vb.) indeksin dışında tutmak istersiniz. (Bazı whois türü siteler, kazıyıcı botların kişisel bilgileri çalmasını durdurmak için JavaScript'te kayıt bilgilerini görüntüler.)
  2. Yinelenen içerik. Metin parçacıkları (ticari marka bilgileri, sloganlar veya açıklamalar) veya tüm sayfalar (ör. sitenizdeki özel arama sonuçları), sitenizde birden fazla URL'de görünen içeriğiniz varsa, arama motoru örümcekleri bunu düşük kaliteli olarak görebilir. . Bu sayfaların (veya bir sayfadaki bağımsız kaynakların) dizine eklenmesini engellemek için mevcut seçeneklerden birini kullanabilirsiniz. Bunları kullanıcılara görünür halde tutabilirsiniz, ancak arama sonuçlarından engelleyebilirsiniz; bu, aramada görünmesini istediğiniz içerik için sıralamanıza zarar vermez.
  3. Diğer kaynaklardan içerik. Üçüncü taraf kaynaklar tarafından oluşturulan ve web'de çeşitli yerlerde çoğaltılan reklamlar gibi içerik, bir sayfanın birincil içeriğinin parçası değildir. Bu reklam içeriği web'de birçok kez yineleniyorsa, bir web yöneticisi, reklamların sayfanın bir parçası olarak görüntülenmesini engellemek isteyebilir.

Bu İlgilenir Neden, Nasıl?

Sorduğuna çok sevindim. İçeriği dizinin dışında tutmak için kullanılan yöntemlerden biri, içeriği botların ayrıştıramayacağı veya yürütemeyeceği bir dil kullanarak engellenen bir harici kaynaktan yüklemek; Bu, odadaki yürümeye başlayan çocuğun neden bahsettiğinizi bilmesini istemediğiniz için başka bir yetişkine sözcükleri hecelemenize benzer. Sorun şu ki, bu durumda yürümeye başlayan çocuk daha akıllı hale geliyor. Uzun bir süre, arama motorlarından bir şey gizlemek istiyorsanız, o içeriği yüklemek için JavaScript'i kullanabilirsiniz, yani kullanıcılar onu alır, botlar almaz.

Ancak Google, JavaScript'i botlarıyla ayrıştırma istekleri konusunda çekingen davranmıyor. Ve bunu yapmaya başlıyorlar; Web Yöneticisi Araçları'ndaki Google Gibi Getir aracı, sayfaları tek tek Google botlarının gördüğü gibi görmenize olanak tanır.

Google Web Yöneticisi Aracı Olarak Getir'in ekran görüntüsü

Sitenizdeki içeriği engellemek için JavaScript kullanıyorsanız, bu araçtaki bazı sayfaları kontrol etmelisiniz; büyük ihtimalle Google görür.

Ancak, Google'ın içeriği JavaScript'te oluşturabilmesinin, içeriğin önbelleğe alındığı anlamına gelmediğini unutmayın. “Getir ve Oluştur” aracı, botun ne görebileceğini size gösterir; Nelerin indekslendiğini öğrenmek için yine de sayfanın önbelleğe alınmış sürümünü kontrol etmelisiniz.

sitenizin Google önbelleğini nasıl bulacağınızın ekran görüntüsü

İçeriği dışa vurmak için insanların tartıştığı pek çok başka yöntem vardır: iframes, AJAX, jQuery. Ancak 2012 yılına kadar deneyler, Google'ın iframe'lere yerleştirilmiş bağlantıları tarayabildiğini gösteriyordu; yani bu teknik gidiyor. Aslında, botların anlayamadığı bir dili konuşma günleri sona yaklaşıyor.

Peki ya botlardan kibarca bazı şeylere bakmamalarını söylerseniz? Robots.txt dosyanızdaki veya Meta Robots etiketinizdeki öğeleri engellemek veya bunlara izin vermemek, öğelerin veya sayfaların dizine eklenmesini engellemenin tek kesin yoludur (parola korumalı sunucu dizinleri dışında).

John Mueller kısa süre önce, AJAX/JSON özet akışlarıyla oluşturulan içeriğin "JavaScript'inizin taranmasına izin vermezseniz [Google] tarafından görülemeyeceği" yorumunu yaptı. Ayrıca, yalnızca CSS veya JavaScript'i engellemenin sıralamanıza zarar vermeyeceğini açıklığa kavuşturmaya devam ediyor: "Kesinlikle basit bir 'CSS veya JavaScript'in taranmasına izin verilmemektedir, bu nedenle kalite algoritmaları siteyi olumsuz olarak görmektedir' ilişkisi yoktur." Bu nedenle, içeriği dizinden uzak tutmanın en iyi yolu, arama motorlarından içeriğinizi dizine eklememelerini istemektir. Bu, tek tek URL'ler, dizinler veya harici dosyalar olabilir.

O halde bu bizi başlangıca geri getiriyor: neden. Herhangi bir içeriğinizi engellemeye karar vermeden önce, bunu neden yaptığınızı ve riskleri bildiğinizden emin olun. Her şeyden önce, CSS veya JavaScript dosyalarınızı (özellikle sitenizin düzenine önemli ölçüde katkıda bulunanları) engellemek risklidir; diğer şeylerin yanı sıra, arama motorlarının sayfalarınızın mobil cihazlar için optimize edilip edilmediğini görmesini engelleyebilir. Sadece bu değil, Panda 4.0'ın piyasaya sürülmesinden sonra, ciddi şekilde etkilenen bazı siteler, CSS ve JavaScript'lerinin engellemesini kaldırarak toparlanabildiler; bu da, bu öğeleri botlardan engellemek için Google'ın algoritması tarafından özel olarak hedeflendiklerini gösterir.

İçeriği engellerken karşılaştığınız bir risk daha: arama motoru örümcekleri neyin engellendiğini göremeyebilirler, ancak bir şeyin engellendiğini bilirler, bu nedenle bu içeriğin ne olduğu hakkında varsayımlarda bulunmaya zorlanabilirler. Örneğin, reklamların genellikle iframe'lerde ve hatta CSS'de gizlendiğini bilirler; bu nedenle, bir sayfanın üst kısmına yakın yerlerde çok fazla engellenmiş içerik varsa, "En Ağır" Sayfa Düzeni Algoritmasına yakalanma riskiniz vardır. Bunu okuyan ve iframe kullanmayı düşünen tüm web yöneticileri, öncelikle saygın bir SEO uzmanına danışmayı düşünmelidir. (Buraya utanmaz BCI promosyonunu ekleyin.)