Robots.txt Nedir: Tanımı, Önemi ve Örnekler

Yayınlanan: 2022-07-11

Google'ın web sitemizi ve İnternet'teki sayfaları taradığını ve ardından bunları kendi arama sonuçları sayfasında görüntülediğini duymuş olabilirsiniz.

Robots.txt, Google'a hangi sitelerin algoritmalarını takip ettiğini ve hangilerinin takip etmediğini söyler. Bu kılavuzda robots.txt, örnekler ve nasıl çalıştıkları hakkında bilmeniz gereken her şeyi paylaştık.

Robots.txt nedir?

Robots.txt, web robotlarına (genellikle arama motoru robotlarına) kendi alanlarındaki sayfaları tarama konusunda rehberlik eden bir web yöneticisinin metin dosyasıdır. Başka bir deyişle, bir robots.txt dosyası, botlar için bir dizi talimattır.

Robots.txt, çoğu web sitesinin kaynak kodunda bulunur.

robots.txt dosyası, Robots Dışlama Protokolü'nün (REP) bir parçasıdır. Robotların web sayfalarını nasıl taradığını, içeriği nasıl bulup dizine eklediğini ve bu bilgileri onu isteyen kişilere nasıl sunduğunu tanımlar.

Robots.txt, arama motoru botlarının sitenizde hangi URL'leri taramaları gerektiğini anlamalarına yardımcı olur.

Robots.txt Neden Önemli?

Nasıl.txt'nin size yardımcı olabileceğinin başlıca üç nedeni vardır:

Tarama Bütçesini En Üst Düzeye Çıkar: Tarama bütçesi, Google botlarının bir zaman aralığında dizine eklediği sayfaların sayısıdır. Robots.txt, önemsiz veya yinelenen içerik sayfalarını engellemeye yardımcı olabilir ve yalnızca sizin için önemli olan sayfalara odaklanarak tarama bütçenizi en üst düzeye çıkarır ve görünürlüğü artırır.

Kaynak Dizine Eklemekten Kaçının: Robots.txt, PDF'ler veya resimler gibi kaynakları dizine ekleyebilir veya dizine eklenebilir. Böylece, sayfaları veya kaynakları engellemek için noindex veya şifre korumalı sayfalar kullanılabilir. Google arama konsolunu kullanarak dizine eklenen sayfaları kontrol edebilir ve dizine eklemek istediğiniz sayfaları botların tarayıp taramadığını görebilirsiniz.

Önemsiz Sayfaları Engelle: Web sitenizde Google arama sonuçlarında görünmesini istemediğiniz bazı sayfalar var. Bunlar, giriş sayfası veya web sitenizin aşamalı/test sürümü olabilir. robots.txt kullanarak bu sayfaları engelleyebilir ve yalnızca önemli olan sayfalara odaklanabilirsiniz.

Robots.txt Örnekleri

Bazı robots.txt örnekleri şunlardır:

Kullanıcı aracısı: Googlebot

İzin verme: /nogooglebot/

Kullanıcı aracısı: *

İzin vermek: /

Site Haritası: http://www.example.com/sitemap.xml

Benzer şekilde, Bing arama motoru için şu şekildedir:

Kullanıcı aracısı: Bingbot

İzin verme: /example-subfolder/blocked-page.html

Sözdizimi, tarayıcının belirli bir sayfanın taranmasından kaçınmasına yardımcı olur.

Her alt alanın kendi robots.txt dosyasına ihtiyacı olduğunu belirtmekte fayda var.

Örneğin, www.cloudflare.com'un kendi dosyası olsa da, tüm Cloudflare alt alan adlarının (blog.cloudflare.com, topluluk.cloudflare.com vb.) kendilerine ait olması gerekir.

Robots.txt Dosyası Nasıl Çalışır?

Robots.txt dosyası, dizine eklenmemiş sayfalar veya robots txt'nin bot programları tarafından sitenin tümüne veya belirli bölümlerine izin vermemesi gibi çeşitli Arama Motoru Optimizasyonu (SEO) tekniklerini uygulamak için kullanılabilir.

Standart, otomatik web tarayıcıları kullanan arama ve sayfa sıralama yazılımı gibi otomatik süreçler aracılığıyla örümceklerin içeriklerini dizine eklemesini önlemek isteyen siteler için özellikle değerlidir.

Robots.txt, HTML biçimlendirme kodu olmayan bir dosyadır. Tıpkı web sitenizdeki diğer dosyalar gibi web sunucusunda barındırılır.

Ana sayfa URL'sini ve ardından /robots.txt girerek erişilebilir. Genel bir örnek https://www.xyz.com/robots.txt'dir.

Dosya sitede başka bir yere bağlanmadığından, ziyaretçilerin dosyayla karşılaşması pek olası değildir, ancak çoğu web tarayıcı botu sitenin geri kalanını dizine eklemeden önce dosyayı arar.

Google tarayıcısı veya haber akışı botu gibi iyi bir bot, bir sitedeki diğer sayfaları incelemeden önce robots.txt dosyasını okur ve talimatlara uyar.

Kötü niyetli bir bot, yasaklanmış web sayfalarını bulmak için robots.txt dosyasını ya yok sayar ya da işler.

Robots.txt Engelleme

Robots.txt, tarayıcının belirli içeriğe sahip sayfalara erişmesini engellemeyi amaçlayan, Googlebot tarafından dizine eklenen, aksi takdirde aranabilir bir web sitesindeki engelleme kuralları hakkında robotları bilgilendirmek için talimatlardan oluşur.

Siteleri taramadan yalnızca gezinen normal kullanıcıları veya botları etkilemez.

Zamanla, web siteleri bu yöntemi kullanarak mobil uygulamaları, JavaScript'i ve sitelerinin diğer bölümlerini engelledi ve yine de resimler gibi bazı öğelere izin verdi.

Bir Robots.txt Dosyasında Hangi Protokoller Kullanılır?

Protokol, ağ oluşturmada talimatları veya emirleri iletmek için bir formattır. Robots.txt dosyaları çeşitli protokoller kullanır. Birincil protokol, Robotları Dışlama Protokolü olarak bilinir.

Botlara hangi web sitelerinden ve kaynaklardan kaçınmaları gerektiği konusunda talimat verir.

Site haritaları protokolü, robots.txt dosyaları için kullanılan başka bir protokoldür. Bu, robotun dahil edilmesi için bir protokol olarak düşünülebilir.

Site haritaları, web tarayıcılarına hangi sayfalara erişebilecekleri konusunda bilgi verir. Bu, bir tarayıcı botunun önemli sayfaları gözden kaçırmamasını sağlamaya yardımcı olur.

Site Haritası nedir?

Site haritası, web tarayıcıları tarafından sitenizin sayfalarını görüntülemek için kullanılan bilgileri açıklayan bir XML dosyasıdır. Site haritası, başlıkları, açıklamaları ve diğer ilgili bilgiler dahil olmak üzere web sitenizdeki tüm URL'leri listeler.

Bu belge, ziyaretçilerin arama motorlarını veya diğer navigasyon sistemlerini kullanarak hızlı bir şekilde bulabilmeleri için arama motorlarının bu öğeleri doğru şekilde dizine eklemesine yardımcı olur.

Kullanıcı Aracısı nedir?

Kullanıcı aracısı kullanıcı aracısı: *izin verme: /nogooglebot/ kullanıcı aracısı kullanıcı aracısı: Googlebot

Kullanıcı aracısından bağımsız olarak tüm robots.txt kurallarına izin vermeyin. Bu, herhangi bir web tarayıcısının sitenize erişmesini önleyecektir. Bu, çoğunlukla gizlilik endişelerine duyarlı web siteleri tarafından kullanılır (ve bu nedenle kullanıcılarının verilerinin ifşa edilmesini istemezler).

Yaygın arama motoru bot kullanıcı aracısı adları şunları içerir:

Google :

Googlebot
Googlebot-Resim (resimler için)
Googlebot-Haberler (haberler için)
Googlebot-Video (video için)

Bing:

Bingbot
MSNBot-Media (resimler ve videolar için)

Baidu:

Baiduspider

.txt Dosyası nedir?

TXT, birçok metin düzenleyici tarafından desteklenen bir metin dosyası uzantısıdır.

ASCII (bir platformlar arası biçim) ve ANSI (DOS ve Windows platformlarında kullanılır) dahil olmak üzere birkaç popüler biçim olsa da, bir metin dosyasının böyle bir statik tanımı yoktur. TXT, TeXT'nin kısaltmasıdır. Metin/düz, MIME türüdür.

robots.txt metin dosyasında, her kural, tüm tarayıcılar veya yalnızca belirtilen tarayıcılar tarafından erişilebilen bir URL kalıbı belirtir.

Her satır tek bir iki nokta üst üste (:) ile başlamalı ve boş satırlar yok sayılarak 1-3 satır içermelidir. Her satır, yerleştirildiği dizine göre mutlak veya göreceli olabilen bir dosya adı olarak yorumlanır.

Web Robotları, Robots.txt ile Aynı mı?

Bazı arama motorları txt yönergelerini desteklemeyebilir.

robots.txt dosyalarındaki talimatlar, tarayıcıları sitenizi ziyaret etmeye zorlayamaz; onları takip etmek tarayıcıya kalmış. Buna karşılık, Googlebot ve diğer iyi bilinen web tarayıcıları, bir robots.txt dosyasındaki kurallara uyar.

Robots.txt Nasıl Uygulanır?

Bir robots.txt dosyası hemen hemen her metin düzenleyicide uygulanabilir. Örneğin Notepad, TextEdit, vi ve emacs, meşru robots.txt dosyaları oluşturabilir.

Robots.txt dosyasına uyulması gereken kurallar şunlardır:

Dosya adı robots.txt olmalıdır.
Alt etki alanlarına (örneğin, https://website.example.com/robots.txt) veya standart olmayan bağlantı noktalarına erişimi kısıtlamak için bir robots.txt dosyası kullanılabilir.
Bir robots.txt dosyası UTF-8 biçiminde olmalıdır (ASCII içerir). Google, UTF-8 aralığında olmayan ve robots.txt düzenlemelerini geçersiz kılabilecek karakterleri reddedebilir.
robots.txt dosyası genellikle, uygulandığı web sitesi sunucusunun kök dizininde bulunur. https://www.example.com/ gibi tüm URL'lerde taramayı etkinleştirmek için robots.txt dosyasının https://www.example.com/robots.txt adresinde bulunması gerekir. Bir alt dizine yerleştirilemez (örneğin, https://example.com/pages/robots.txt).

Bir Robots.txt Dosyasının Sınırlamaları

Robots.txt dosyasının sınırlamaları şunlardır:

Tüm arama motorları Robots.txt dosyasını desteklemez: Robots.txt dosyaları, tarayıcıları sitenizi ziyaret etmeye zorlayamaz; onları takip etmek tarayıcıya kalmış. Googlebot ve diğer güvenilir web tarayıcıları bir robots.txt dosyasındaki talimatları uygularken, diğer tarayıcılar bunu yapmayabilir.

Farklı tarayıcılar söz dizimini farklı yorumlar: Saygın web örümcekleri bir robots.txt dosyasındaki yönergelere bağlı kalsa da, her tarayıcı yönergeleri farklı yorumlayabilir.

İzin verilmeyen bir sayfa, diğer sayfalara bağlıysa dizine eklenebilir: Google, bir robots.txt dosyasının kısıtladığı içeriği taramaz veya dizine eklemez, ancak internetteki diğer konumlardan bağlantı verilmişse izin verilmeyen bir URL'yi bulabilir ve dizine ekleyebilir.

Sonuç olarak, URL adresi ve belki de sayfa bağlantılarındaki bağlantı metni gibi herkese açık diğer bilgiler Google arama sonuçlarında görünmeye devam edebilir.

SSS

S1. robots.txt bir sitede nereye gider?

Cevap: Bir robots.txt dosyası genellikle web sitenizin kök dizinine yerleştirilir, ancak sitenizde erişimi kısıtlamak istediğiniz herhangi bir yerde olabilir.

S2. Bir robots.txt dosyası gerekli mi?

Cevap: Kısa cevap hayır. Bir web sitesi için robots.txt dosyası gerekli değildir. Bir bot web sitenizi ziyaret ederse ve robots.txt dosyasına sahip değilse, normalde olduğu gibi sayfaları tarar ve dizine ekler. .txt dosyası yalnızca nelerin taranacağı üzerinde daha fazla kontrol sahibi olmak istiyorsanız gereklidir.

S3. robots.txt güvenli mi?

Cevap: robots.txt dosyası kendi başına bir güvenlik riski oluşturmaz ve doğru kullanımı, güvenlikle ilgili olmayan nedenlerle iyi bir uygulama olabilir. Tüm web robotlarının dosyadaki talimatları izlemesini beklememelisiniz.

S4. robots.txt dosyasına erişmek yasa dışı mı?

Cevap: Bir robots.txt dosyası, web sitesi sahibi tarafından ima edilen bir lisanstır. robots.txt dosyasının farkındaysanız, sitelerini izinsiz olarak kazımaya devam etmek yetkisiz erişim veya bilgisayar korsanlığı olarak görülebilir.

S5. Robots txt'de tarama gecikmesi nedir?

Cevap: Tarama gecikmesi yönergesi, web sunucusunun aşırı yüklenmemesi için tarayıcılara yavaşlamalarını söylemenin bir yoludur.

Çözüm

Robots.txt, çok fazla güce sahip basit bir dosyadır. Nasıl kullanılacağını iyi biliyorsanız, SEO'ya yardımcı olabilir. Doğru türde robots.txt oluşturmak, SEO ve kullanıcı deneyiminizi de iyileştirdiğiniz anlamına gelir.

Botlar, doğru şeyleri taramalarına izin verirseniz, içeriğinizi SERP'lerde görünmesini istediğiniz şekilde sunabilecektir.

SEO ve önemli faktörler hakkında daha fazla bilgi edinmek istiyorsanız, diğer birçok Scalenut bloguna göz atın.