[Webinar Digest] SEO în Orbită: Deblocarea secretelor indexării

Publicat: 2019-11-06

Seminarul web Deblocarea secretelor indexării face parte din seria SEO în Orbit și a fost difuzat pe 12 iunie 2019. În acest episod, Kevin Indig își împărtășește părerile despre indexarea paginilor și modul în care paginile indexate pentru un site influențează întregul site. clasamentele și ce pagini nu ar trebui indexate. Care este abordarea corectă față de acest pas intermediar între descoperirea paginilor și apariția lor pe SERP-uri?

SEO in Orbit este prima serie de seminarii web care trimite SEO în spațiu. De-a lungul seriei, am discutat despre prezentul și viitorul SEO tehnic cu unii dintre cei mai buni specialiști SEO și am trimis sfaturile lor de top în spațiu pe 27 iunie 2019.

Urmărește reluarea aici:

Prezentarea lui Kevin Indig

Kevin Indig a ajutat startup-urile să obțină +100 de milioane de utilizatori în ultimii 10 ani. El este VP SEO & CONTENT @ G2, un mentor pentru Growth @ GermanAccelerator și anterior a condus SEO @ Atlassian și Dailymotion. Specialitatea sa este achiziționarea utilizatorilor, construirea mărcii și păstrarea utilizatorilor. Printre companiile cu care Kevin a lucrat se numără eBay, Eventbrite, Bosch, Samsung, Pinterest, Columbia, UBS și multe altele. De asemenea, conduce buletinul informativ de marketing tehnic, Tech Bound.

Acest episod a fost găzduit de Rebecca Berbel, managerul de conținut la OnCrawl. Fascinată de modelele de limbaj NLP și de mașini, în special, și de sisteme și de modul în care funcționează în general, Rebecca nu este niciodată în despărțire pentru ca subiectii tehnici SEO să fie entuziasmați. Ea crede în evanghelizarea tehnologiei și utilizarea datelor pentru a înțelege performanța site-ului pe motoarele de căutare.

Definiții

Unul dintre motivele pentru care este important să vorbim despre indexare este că este un subiect complex. Mulți SEO se luptă cu indexarea și cum să o influențeze.

Este timpul pentru un alt test SEO.
Creați o pagină nouă. Care dintre următoarele îl va ține departe de indexul Google?
A. Meta robots noindex
B. Blocul Robots.txt
C. Acordarea paginii meta noindex *și* blocarea acesteia în robots.txt
– Will Critchlow (@willcritchlow) 9 iunie 2019

- Crawling

Crawling-ul în termeni simpli este procesul de descoperire tehnică al motoarele de căutare care înțeleg o pagină web și toate componentele acesteia.

Acest lucru îl ajută pe Google să găsească toate adresele URL pe care apoi le poate întoarce și le poate reda, apoi le poate indexa și, în cele din urmă, le poate clasa.

– Procesul Google în 3 pași

Accesarea cu crawlere face parte din procesul în trei pași al Google, care duce la posibilitatea de a crea rezultate de căutare:

Crawling
Redare
Indexarea

Acestea sunt procese diferite din punct de vedere tehnic, gestionate de diferite programe sau părți ale motorului de căutare.

Clasamentul este potențial un al patrulea pas în acest proces.

– Indexare

Indexarea este procesul prin care Google adaugă adrese URL la „lista” lungă de rezultate posibile. Dacă Kevin trebuie să evite cuvântul „index” într-o definiție a indexării, el ar prefera să vorbească despre o „listă” metaforică: Google are o „listă” de adrese URL pe care le poate folosi pentru a clasa și pentru a afișa cele mai bune rezultate utilizatorilor. .

– Fișiere jurnal

Serverele web păstrează un istoric oricând cineva sau orice solicită o pagină sau o resursă pe server.

Kevin este cu adevărat pasionat de fișierele jurnal ca sursă de adevăr atunci când vine vorba de înțelegerea modului în care Google accesează cu crawlere și redă site-ul tău.

În jurnale, putem găsi informații despre server cu privire la cât de des vizitează Google site-ul dvs. și ce face acolo, în termeni foarte simpli. Fișierele jurnal conțin înregistrări individuale ale fiecărei vizite pe site.

Puteți obține o mulțime de informații din fișierele jurnal:

Erori specifice codului de stare
Probleme cu crawling
Probleme cu randarea
Cât timp petrece Googlebot pe site-ul tău
Ce Googlebot vin pe site-ul dvs. De exemplu, cu indexul Mobile First, principalul robot Google folosit pentru indexare a fost actualizat recent.
Indiferent dacă structura tehnică a site-ului dvs. este ceva ce urmează Google sau dacă aveți ceva acolo care poate fi optimizat.

Modalități de verificare a indexării

– Nerecomandat: interogări „site:”.

Când Kevin a început să lucreze în SEO acum aproximativ 10 ani, el vedea ce pagini de pe site-ul său erau indexate prin căutări „site:” pe Google. Deși încă îl folosește uneori, nu mai este o modalitate fiabilă de a afla dacă o adresă URL este indexată.

Mai recent, l-a întrebat pe John Mueller despre această strategie; a verificat că aceasta nu mai este o modalitate recomandată de a verifica ce a indexat sau nu Google.

– Recomandat: Inspecție URL din Search Console

În schimb, John Mueller recomandă utilizarea Instrumentului de inspecție URL din Search Console pentru a verifica ceea ce a fost indexat.

Pagina stocată în cache nu este întotdeauna reprezentativă pentru ceea ce este indexat și, în general, este doar HTML-ul static care a fost preluat (dacă există JavaScript pe ea, de obicei nu rulează în găzduirea stocată în cache). M-aș concentra mai mult pe instrumentul de inspecție URL.

— ???? Ioan ???? (@JohnMu) 8 mai 2019

– Recomandat: sitemap XML și Raportul de acoperire

Trimiterea unui sitemap XML în Search Console este o modalitate de a verifica un lot de adrese URL și apoi de a verifica harta site-ului în Raportul de acoperire din consola de căutare.

Importanța de a face distincția între crawl-render-index

După cum am menționat, există un proces în 3 pași în care Google accesează cu crawlere, redă și indexează o pagină. Este foarte important să faceți distincția între fiecare dintre acești pași. Pe măsură ce web-ul devine mai sofisticat, Google a trebuit să adapteze, să separe și să îmbunătățească aceste procese în mod individual.

Googlebot diferiți

Mai mulți Googlebots sunt folosiți de Google pentru a accesa cu crawlere și a reda site-uri web. Aveți diferite tipuri de resurse: imagini, videoclipuri, știri, text... Google folosește diferiți Googlebots pentru a înțelege fiecare tip de conținut.

Google a anunțat în urmă cu aproximativ o lună că și-a actualizat motorul de randare pentru a rula pe Googlebot veșnic verde și cel mai recent motor Chromium.

Acest lucru este important, deoarece accesarea cu crawlere și redarea sunt pași necesari care duc la indexare.

Schimbarea priorităților în procesul Google

În scopuri de indexare, Google obișnuia să acceseze cu crawlere Googlebot desktop. Asta a fost schimbat; acum folosesc smartphone-ul Googlebot în scopuri de indexare.

Indexarea Mobile-First va fi impusă începând cu iulie 2019 pentru toate site-urile noi și va apărea pentru toate site-urile existente cunoscute, dacă acestea nu au fost deja schimbate.

Accesare cu crawlere: moduri în care Google găsește adrese URL de indexat

Pentru a putea indexa o pagină, Google trebuie să o acceseze cu crawlere.

Ca prim pas în procesul care duce la indexare, pentru a vă asigura că paginile dvs. sunt indexate corect și rapid, trebuie să vă asigurați că accesarea cu crawlere este „în siguranță”.

Există trei moduri prin care Google găsește adrese URL:

Link-uri: pe asta s-a bazat întregul brevet PageRank – găsirea de noi site-uri prin hyperlinkuri
Hărți XML ale site-urilor
Târârile din trecut

– Cum prioritizează Google adresele URL (buget de accesare cu crawlere)

Google prioritizează ce site-uri accesează cu crawlere și cât de des. Acesta este adesea denumit „buget de accesare cu crawlere”.

A existat un articol pe blogul Google Webmaster despre bugetul de accesare cu crawlere, care a oferit câteva idei despre modul în care Google acordă prioritate site-urilor pe care să le acceseze cu crawlere.

– Popularitate: backlink-uri și PageRank

Unul dintre punctele stabilite de acest articol este că PageRank este un factor principal din spatele vitezei și volumului de indexare pentru un site web.

Backlink-urile, desigur, sunt o componentă majoră a PageRank și, prin urmare, au o influență asupra ratei de accesare cu crawlere și a indexării.

– coduri de stare

Se iau în considerare și codurile de stare. De exemplu, dacă aveți o mulțime de 404 pagini pe site-ul dvs., acest lucru va determina probabil Google să reducă frecvența accesărilor cu crawlere.

Un alt exemplu sunt lanțurile și buclele de redirecționare.

– igiena locului

Dacă site-ul dvs. este organizat într-un mod care irosește mult buget de accesare cu crawlere, Google ar putea reduce timpul petrecut pe site-ul dvs.

– Viteza paginii și timpul de răspuns al serverului

Bugetul de accesare cu crawlere a fost afectat și de viteza paginii și timpul de răspuns al serverului. Google nu vrea să facă DDoS site-ul dvs.; dacă vede că serverul dvs. are dificultăți în furnizarea de pagini și resurse la rata pe care le solicită, se va adapta la ceea ce poate gestiona serverul dvs. în ceea ce privește accesarea cu crawlere.

Redare: actualizare cu cafeină

Actualizarea cafeinei care a apărut acum câțiva ani a fost practic o actualizare a structurii de randare a Google.

Indexare: clustere diferite pentru tipurile de conținut

Există diferite arhive de indici pe care Google le folosește pentru a returna rezultate diferite. Este rezonabil să ne imaginăm că există grupuri diferite în index pentru rezultatele știrilor, iar altul pentru rezultatele imaginilor etc.

Clasament: algoritmi separati

În cele din urmă, adresele URL indexate sunt clasate, dar acesta este un algoritm total diferit.

Îmbunătățirea vitezei de indexare

Atât indexarea mai rapidă a paginilor, cât și indexarea mai multor pagini sunt puternic influențate de PageRank și, prin urmare, de backlink-uri. Dar strategiile de îmbunătățire a fiecăruia sunt diferite.

Dacă doriți ca paginile să fie indexate mai repede, doriți să optimizați primii doi pași (crawling și randare). Aceasta va include componente precum:

Legătura internă
Sitemaps
Viteza serverului
Viteza paginii

Îmbunătățirea numărului de pagini indexate

Dacă doriți să obțineți mai multe pagini indexate, acolo este mai important aspectul de crawling. Veți dori ca Google să găsească mai ușor toate paginile dvs. Acest lucru este simplu pe un site web mic, cu o mie de adrese URL, dar este mult mai greu pe un site mai mare cu milioane de adrese URL.

De exemplu, G2 are o mulțime de pagini de diferite tipuri de pagini. Echipa SEO a lui Kevin vrea să se asigure că Google este capabil să găsească toate paginile, indiferent de adâncimea accesului cu crawlere și indiferent de câte pagini de acest tip există; aceasta este o provocare majoră care trebuie abordată din unghiuri diferite.

Variația ratelor de accesare cu crawlere în funcție de profilul paginii

Pe baza tipului de pagină, Kevin găsește adesea rate de accesare cu crawlere diferite de către Google. Acest lucru depinde adesea de profilul backlink al URL-ului și de linkul intern. Aici găsește cea mai mare utilizare a fișierelor jurnal.

El își segmentează site-ul după tipul de pagină pentru a înțelege unde site-ul nu are eficiență de accesare cu crawlere sau unde eficiența accesării cu crawlere este prea mare.

Relația dintre rata de accesare cu crawlere, viteza de indexare și rang

Kevin a observat în mod absolut corelații clare între rata de accesare cu crawlere, viteza de indexare și clasament pentru fiecare tip de pagini. Acest lucru a fost adevărat nu numai pe site-urile cu care a lucrat, ci și în corespondența cu alți SEO din industrie.

Fără a pune o cauzalitate între accesare cu crawlere, indexare și clasare, elementele similare care determină indexarea par de asemenea să fie luate în considerare atunci când vine vorba de clasarea unei pagini. De exemplu, dacă aveți o mulțime de backlink-uri către un anumit șablon de pagină pentru un anumit tip de pagină (de exemplu: pagini de destinație), ceea ce veți găsi în fișierele dvs. jurnal este că, dacă Google are o rată de accesare cu crawlere mai mare în aceste pagini în întreaga dvs. de asemenea, Google indexează aceste pagini mai rapid și, de obicei, le clasează mai sus decât alte pagini.

Este greu să faci declarații universale care să fie valabile pentru toate site-urile, dar Kevin îi încurajează pe toată lumea să-și verifice fișierele jurnal pentru a vedea dacă acest lucru este valabil și pe propriul site. De asemenea, OnCrawl a constatat că acest lucru este valabil pentru multe site-uri diferite pe care le-au analizat.

Aceasta este o parte din ceea ce a încercat să schițeze cu modelul TIPR de legături interne pe care a venit cu el.

Măsurarea vitezei de crawl

Pentru a măsura rata de accesare cu crawlere, doriți să răspundeți la întrebarea: cât de des ajunge un anumit Googlebot să viziteze o anumită adresă URL?

Cum „muiezi și tăiați” aceasta altă întrebare. Lui Kevin îi place să se uite săptămânal la numărul de accesări Googlebot. De asemenea, îl puteți privi zilnic sau lunar.

– Concentrarea pe înainte/după

Mai important decât perioada pe care o utilizați este analizarea modificărilor ratei de accesare cu crawlere. Ar trebui să vă uitați la rata înainte de a face modificări și după ce acestea sunt implementate.

– Concentrarea pe diferențele dintre tipurile de pagini

O altă cheie pentru măsurarea ratei de accesare cu crawlere este să vă uitați la locul în care sunt golurile pe site-ul dvs. La nivel de tip de pagină, unde sunt diferențele dintre ratele de accesare cu crawlere? Ce tip de pagini este accesat cu crawlere o tonă? Ce tipuri de pagini sunt cu greu accesate cu crawlere?

– Observații comune în comportamentul târârii

Câteva observații interesante pe care Kevin le-a făcut în trecut includ:

Adresa URL cea mai accesată cu crawlere: robots.txt
Cea mai mare parte a timpului petrecut pe o adresă URL/grup de adrese URL: sitemap-uri XML, mai ales când devin puțin mai mari

Săpat prin fișierele jurnal pentru a găsi diferențe în comportamentul accesării cu crawlere între tipurile de pagini este foarte uimitoare. Căutați ce adrese URL sunt accesate cu crawlere zilnic față de ce adrese URL sunt accesate cu crawlere lunar. Acest lucru vă poate spune multe despre cât de eficientă este structura site-ului dvs. pentru accesare cu crawlere (și indexare – chiar dacă există un pas între ele).

Repartizarea bugetului de crawl pe baza modelului de afaceri

Pentru a îmbunătăți eficiența accesării cu crawlere, strategia este de obicei de a reduce atenția pe care Google o acordă unor tipuri de pagini și de a o redirecționa către pagini care sunt mai importante decât site-ul web.

Modul în care doriți să gestionați acest lucru va depinde de modul în care sunt gestionate conversiile pe site. Kevin distinge două modele de bază de site: modele de afaceri centralizate și descentralizate:

Modelele descentralizate pot converti utilizatorii pe orice pagină. Un bun exemplu este Trello: te poți înscrie pe orice pagină. Toate tipurile lor de pagini sunt relativ similare. Deoarece nicio pagină nu este mai valoroasă decât alta pentru înscrieri, obiectivul ar putea fi acela de a avea o rată egală de accesare cu crawlere pe întregul site: doriți ca toate tipurile de pagini să fie accesate cu crawlere la aproximativ aceeași rată.
Modelele centralizate ar putea fi ceva de genul Jira. Jira nu are un singur tip de pagină pe care să îl putem replica de un milion de ori: există doar câteva pagini de destinație în care oamenii se pot înscrie. Doriți să vă asigurați că bugetul de accesare cu crawlere pe un site ca acesta este concentrat în jurul punctelor dvs. de conversie (paginile dvs. de destinație).

Modul în care doriți să fie distribuit bugetul de accesare cu crawlere revine la întrebarea cum câștigă bani site-ul dvs. și ce tipuri de pagini joacă cel mai important rol în acest sens.

Abordarea deșeurilor de crawl

Pentru a împiedica roboții Google să cheltuiască bugetul de accesare cu crawlere pe pagini care sunt mai puțin importante pentru conversii, există mai multe metode.

Cel mai bun mod de a omite accesarea cu crawlere este robots.txt:

În 99,99999% din cazuri, Google respectă directivele robots.txt.
Robots.txt poate ajuta la blocarea accesării cu crawlere pe secțiuni mari ale site-ului dvs. cu conținut subțire sau duplicat (Exemple clasice: profiluri de utilizator pe un forum; URL-uri ale parametrilor...)

Există cazuri legitime în care ați putea dori ca o pagină să nu fie indexată, dar să ajute totuși la accesarea cu crawlere. Kevin ar considera că unele pagini hub se încadrează în această categorie. Aici ar folosi un meta noindex.

El recunoaște că John Mueller a spus că etichetele meta noindex sunt în cele din urmă tratate ca nofollow, dar Kevin nu a văzut până acum acest lucru pe teren. El admite că acest lucru s-ar putea datora faptului că durează foarte mult timp să se întâmple (peste un an sau mai mult). În schimb, el tinde să găsească Googlebots „lacomi” și să caute și să urmeze cât mai multe link-uri.

Sfatul lui Kevin este să folosești robots.txt și să-l folosești în întregime. Puteți folosi metacaractere și câteva tehnici foarte sofisticate pentru a proteja anumite lucruri împotriva accesării cu crawlere.

Regula generală de urmat este că, cu cât conținutul este mai subțire, cu atât este mai probabil să fie un candidat pe care să îl excludă de la crawling.

Paginile excluse de la accesarea cu crawlere prin robots.txt sunt în continuare indexabile de către Google dacă au link-uri interne sau backlink care indică către ele. Dacă se întâmplă acest lucru, textul descrierii din rezultatele căutării va arăta că Google nu a putut accesa cu crawlere pagina din cauza unei restricții în robots.txt. În general, totuși, aceste pagini nu se clasează foarte bine decât dacă au fost excluse doar recent în robots.txt.

Probleme de indexare din cauza paginilor similare

– Erori canonice

Din punct de vedere programatic, declarațiile canonice sunt extrem de ușor de greșit. Kevin a văzut de câteva ori cazul în care canonicul a avut punct și virgulă (;) în loc de două puncte (:) și apoi te confrunți cu o mulțime de probleme.

Canonicalele sunt foarte sensibile în unele cazuri și pot determina Google să nu aibă încredere în toate canonicalele dvs., ceea ce poate fi atunci o problemă uriașă.

Una dintre cele mai frecvente probleme cu canonicalele, totuși, este canonicalele uitate.

– Migrari de site

Migrațiile de site sunt adesea o sursă de probleme cu canonicalele; Kevin a văzut probleme în care site-ul tocmai a uitat să adauge noul domeniu la canonicals.

Acest lucru este extrem de ușor de uitat, în special atunci când CSM-ul dvs. are nevoie de o ajustare manuală (mai degrabă decât programatică) pentru a face schimbarea în timpul unei migrări.

Setarea implicită este aceea că pagina canonică ar trebui să trimită către ea însăși, cu excepția cazului în care există un motiv specific pentru a indica o altă adresă URL.

– HTTP la HTTPS

Aceasta este o altă eroare canonică comună care împiedică indexarea adresei URL corecte. Protocolul greșit este uneori folosit în canonic.

– Găsirea sursei de eroare atunci când Google ignoră declarația canonică

Google își va alege uneori propriul canonic. Când nu au încredere în declarația dvs. canonică, există de obicei o cauză principală.

Kevin sugerează să evitați situațiile în care ați putea trimite două semnale conflictuale către Google:

Uitați-vă în sitemapurile dvs. XML
Accesați cu crawlere propriul site și căutați canonice defecte
Consultați setările parametrilor din Search Console pentru a găsi setări conflictuale
Nu folosiți noindex și canonicals în același timp

Tipuri de pagini care contribuie la balonarea indexului

În SEO acum zece ani, voiai să trimiți cât mai multe pagini pentru a fi indexate: cu cât mai multe pagini indexate, cu atât mai bine.

Astăzi, nu mai este cazul. Vrei doar produse de cea mai înaltă calitate în magazinul tău. Nu doriți niciun conținut sub-par în index.

„Index bloat” este de obicei folosit pentru a descrie un tip de pagină care nu oferă nicio valoare. Acest lucru se întoarce adesea la orice fel de conținut subțire, în special cazurile în care multiplicați sau amplificați numărul de pagini existente fără a oferi o valoare substanțială pentru fiecare pagină nouă.

Cazurile clasice în care ați putea dori să vă uitați la câte dintr-un anumit tip de pagină sunt indexate și dacă acestea oferă valoare suplimentară includ:

Parametrii
Paginare
Forumuri
Pagini legate de director sau pagini de ușă
Pagini locale extinse (oraș) care nu fac diferența între servicii sau conținut
Navigații fațetate

Cum afectează indexarea un site în ansamblu

Nu doriți să aveți pagini slab indexate astăzi, deoarece acestea afectează modul în care Google vede și evaluează site-ul dvs. în ansamblu.

O mare parte din aceasta se întoarce la bugetul de accesare cu crawlere. În timp ce Gary Illyes și John Mueller au spus adesea că majoritatea site-urilor nu trebuie să-și facă griji cu privire la bugetul de accesare cu crawlere, publicul pentru tipul de discuții pe care îl avem astăzi sunt site-uri mai mari, unde face o mare diferență.

Vrei să te asiguri că Google găsește numai conținut de înaltă calitate.

La fel ca relația pe care Kevin o observă între rata de accesare cu crawlere, indexare și clasare, el observă, de asemenea, că acordarea atenției calității paginilor indexate pare să plătească pentru întregul site. Deși este dificil să faci declarații universale, se pare că Google are un fel de valoare a calității site-ului care depinde de paginile indexate pentru site-ul respectiv. Cu alte cuvinte, dacă aveți o mulțime de conținut de calitate scăzută care este indexat, pare să vă rănească site-ul.

Acesta este locul în care balonarea indexului este dăunătoare: este o modalitate de a dilua sau de a reduce „scorul” general al calității site-ului și vă irosește bugetul de accesare cu crawlere.

Sitemap XML pentru indexare rapidă

Părerea lui Kevin este că, pe măsură ce Google a devenit mai inteligent, numărul de „hack-uri” a scăzut în timp.

Cu toate acestea, în ceea ce privește indexarea, el a descoperit că o modalitate de a obține ceva indexat rapid este utilizarea unui sitemap XML.

Recent, G2 a migrat la un domeniu nou. Au un tip de pagină care durează mult să fie accesat din nou cu crawlere, așa că în indexul Google ați văzut încă vechiul domeniu în fragmentele pentru pagini de acest tip. Când Kevin a văzut că redirecționările 301 nu au fost luate în considerare deoarece nu fuseseră încă accesate cu crawlere, a pus toate paginile de acest tip într-un sitemap XML și a furnizat sitemap-ul lui Google în Search Console.

Această strategie poate fi folosită și dacă există o schimbare tehnică mare pe site pe care Kevin dorește ca Google să o înțeleagă cât mai repede posibil.

Creșterea proeminenței SEO tehnic

SEO tehnic a câștigat proeminență în ultimii trei ani. De multe ori, întrebările tehnice SEO evidențiază zone care sunt cu adevărat subestimate.

Adesea auziți că conținutul și backlink-urile sunt singurele lucruri de care trebuie să aveți grijă. În timp ce Kevin crede că acestea sunt domenii de mare impact ale SEO, el crede că pot avea și mai mult impact dacă ți-ai corectat SEO tehnic.

[Ebook] Crawlability

Asigurați-vă că site-urile dvs. îndeplinesc cerințele motoarelor de căutare pentru accesarea cu crawlere pentru a crește performanța SEO.

Citiți cartea electronică

Întrebări și răspunsuri

– Bing și indexarea a 10.000 de URL-uri/zi

Bing oferă webmasterilor posibilitatea de a trimite direct până la 10.000 de adrese URL pe zi prin instrumentele lor pentru webmasteri pentru o indexare mai rapidă.

Kevin crede că aceasta este o direcție în care se poate îndrepta și Google. Chiar și Google, ca una dintre cele mai valoroase companii din lume, trebuie să își protejeze resursele. Acesta este unul dintre motivele pentru care, dacă le irosești resursele de accesare cu crawlere, se vor ajusta în consecință.

Dacă acest tip de caracteristică merită sau nu pentru webmasteri, va depinde și de dimensiunea site-ului dvs. Numărul de site-uri care ar beneficia de a putea trimite atât de multe adrese URL pe zi este limitat – probabil de mii sau zece mii. Kevin presupune că pentru aceste site-uri, Google dedică deja resurse semnificative. Se pare că pentru cele mai mari site-uri de pe web, Google face o treabă decentă de a le indexa, cu excepțiile obișnuite, desigur.

Este probabil mult mai ușor pentru Bing să implementeze ceva la această scară: în primul rând, cota lor de piață este mult mai mică, așa că cererea pentru această funcție este mai mică. Mărimea indicelui lor este, de asemenea, probabil mult mai mică, așa că probabil că vor beneficia mai mult.

– Când Google ignoră robots.txt

Google ignoră doar foarte rar robots.txt.

Uneori, ceea ce ne face să presupunem că Google ignoră robots.txt este că, așa cum am vorbit mai devreme, Google poate indexa uneori pagini care sunt blocate de robots.txt, care pot fi încă găsite prin mai multe alte moduri.

De asemenea, este posibil să puteți determina Google să ignore directivele din robots.txt dacă sintaxa dvs. din fișierul robots.txt este incorectă:

Personaje eronate
Utilizarea etichetelor care nu funcționează sau nu ar trebui să funcționeze, cum ar fi directivele noindex

[Notă: Kevin citează un studiu de caz care a constatat că Google a respectat directivele noindex prezentate în fișierul robots.txt. Cu toate acestea, la scurt timp după difuzarea acestui webinar, Google a anunțat încetarea suportului tacit pentru această directivă în fișierele robots.txt, începând cu 1 septembrie 2019.]

Cu toate acestea, Google este una dintre companiile care își mențin roboții la un standard ridicat și nu ignoră robots.txt.

Sfat de top

„PageRank este principalul motor din spatele vitezei și volumului de indexare.”

SEO în Orbit a mers în spațiu

Dacă ați ratat călătoria noastră în spațiu pe 27 iunie, prindeți-o aici și descoperiți toate sfaturile pe care le-am trimis în spațiu.