Sitemap XML: recomandări cheie pentru optimizare
Publicat: 2021-03-26Sitemap.xml de pe site-ul dvs. poate acționa ca o bună navigare pentru paginile pe care doriți să le indexeze botul Google. Vă ajută să găsiți paginile principale mai rapid, chiar dacă nu aveți o legătură internă bună.
În acest articol, vă vom prezenta diverse recomandări pentru optimizarea Sitemap-ului XML și de ce este bine să faceți acest lucru.
Funcționalități și avantaje
Ușurează funcționarea roboților și permiteți posibilitatea de a obține „rapoarte” pentru paginile și linkurile de pe site-ul dvs. care nu au putut fi găsite cu ușurință.
Unele dintre beneficiile SEO sunt următoarele:
- indexare mai rapidă – motoarele de căutare vor găsi pagini noi mult mai rapid, astfel încât procesul de indexare și afișare a site-ului web în rezultatele căutării va fi mai rapid. Lucrul ciudat aici este că vă poate ajuta și cu deindexarea (mai multe informații aici);
- indexare mai bună a paginilor interne – motoarele de căutare pot găsi pagini care nu au fost găsite la accesarea cu crawlere a site-ului. Dar asta nu înseamnă neapărat că toate vor fi indexate.
- monitorizarea paginilor indexate. În combinație cu Google Search Console, puteți afla ce adrese URL sunt acoperite în Sitemap XML pe care Google îl indexează.
Este important un Sitemap XML?
Este important pentru site-urile care:
- nu au o structură bună sau nu au o bună distribuție a legăturilor interne;
- au multe pagini – harta site-ului XML ajută motoarele de căutare să găsească pagini noi sau actualizate;
- nu aveți multe link-uri de intrare – aceasta va fi o modalitate excelentă de a vă găsi paginile.
Cerințe și formate
Google acceptă mai multe formate de Sitemap. Toate formatele și standardele pot fi găsite la această adresă: https://www.sitemaps.org/index.html.
Toate formatele limitează harta site-ului la 50 MB (necomprimat) și 50.000 de adrese. Dacă aveți un fișier mai mare sau mai multe adrese, va trebui să creați un fișier index cu toate hărțile (descris în articolul de mai jos).
Principalele recomandări sunt:
- fișierul trebuie să fie codificat cu UTF-8;
- trebuie să înceapă cu o etichetă deschisă și să se termine cu o etichetă închisă, cum ar fi …. ;
- specificați protocolul standard în etichetă;
- eticheta principală pentru fiecare intrare URL;
- specificați adresa URL începând cu protocolul (https sau http) din etichetă, care trebuie să participe la eticheta principală pentru salvare.
Atribute suplimentare opționale pentru sitemapurile XML
Google nu folosește atributul pe site-urile sale. Toate celelalte atribute sunt disponibile, dar depinde dacă vor fi reflectate. Prin urmare, rețineți că Google nu ia aceste etichete foarte în serios. Sunt:
- – reprezintă data ultimei modificări a fișierului. Trebuie să fie în format W3C Datetime;
- – cât de des este probabil ca pagina să fie actualizată. Această valoare oferă informații generale despre motoarele de căutare. Valorile valide pot fi întotdeauna, oră, zilnic, săptămânal, lunar, anual, niciodată.
Trebuie reținut că valoarea acestei etichete este considerată mai degrabă un indiciu decât o comandă. Roboții văd aceste informații și le iau în considerare, dar în cele din urmă decid singuri dacă le folosesc, în funcție de mulți alți factori.
- – Prioritizează adresa URL față de alte adrese URL de pe site-ul dvs. Valorile valide variază de la 0,0. la 1,0.
Din nou, trebuie reținut că această prioritate este relativă și nu este o condiție obligatorie pentru roboți, sau cel puțin încă nu este acceptată ca atare. Cu toate acestea, dacă decideți să încercați, utilizați următorul ghid:
- 0 – 0,3: Știri învechite, informații care nu mai sunt valabile, dar sunt utile din punct de vedere istoric;
- 4 – 0.7: Articole de blog, categorii de pagini, întrebări frecvente;
- 8 – 1.0: Pagina de pornire, pagini de produse, toate paginile cu conținut bine optimizat.
Următorul exemplu arată un Sitemap care conține o singură adresă URL și utilizează toate etichetele opționale care sunt scrise în cursiv .
https://netpeak.bg
15-09-2018
lunar
0,8
Identificarea paginilor importante
Adăugați pagini de înaltă calitate și cele care sunt bine optimizate. Calitatea generală este de mare importanță pentru o mai bună clasare. Acesta este un factor serios pentru Google, care vă poate oferi o prioritate serioasă față de concurență.
Nu vrem să vizităm pagini de calitate scăzută, nici roboții Google. Dacă îl ghidați către mii de pagini care nu sunt utile utilizatorilor și nu sunt bine optimizate, acest lucru poate fi doar dăunător pentru dvs. Ce sunt paginile de înaltă calitate? Mai simplu spus, acestea sunt pagini care:
- să aibă suficient conținut unic;
- să-și implice rapid utilizatorii, solicitând acțiuni (comentarii, recenzii etc.);
- include imagini, videoclipuri etc.;
- nu încălca politicile Google;
Pagini deschise pentru indexare
Bugetul de accesare cu crawlere reprezintă, în general, numărul de pagini accesate cu crawlere pe unitatea de timp (zi, săptămână, lună etc.). Prin urmare, nu este indicat să-l risipești inutil.
Paginile care conțin metaeticheta „Noindex” nu trebuie adăugate pe harta site-ului. a urma o ordine logica este important pentru toate.
Este necesar să se facă o verificare automată și să nu se includă adrese care sunt închise pentru indexare.
Se recomandă să urmați aceste instrucțiuni:
- Dacă pagina https://example.com/category/product are o meta-etichetă „noindex”, aceasta nu trebuie inclusă în harta XML a site-ului;
- Când pagina este închisă pentru indexare prin robots.txt, aceasta nu ar trebui să fie inclusă în harta XML:
Nu permiteți: /categorie/produs
Noindex: /categorie/produs
- Dacă pagina este închisă pentru indexare prin X-Robots-Tag în antetul HTTP, nu ar trebui să fie inclusă și în harta XML a site-ului:
HTTP/1.1 200 OK
Data: marți, 25 mai 2010 21:42:43 GMT
(...)
X-Robots-Tag: noindex
(...)
Versiuni canonice ale paginilor
Accesul la o singură pagină prin mai multe adrese URL cu conținut similar va fi considerat duplicat de Google.
Trebuie să utilizați atributul „link rel canonical” pentru a indica botului care este pagina „principală” și care trebuie accesată cu crawlere și indexată.
De exemplu, dacă pagina https://example.com/category/product-1 are canonic pentru https://example.com/product, atunci http://example.com/category/product-1 nu ar trebui să participe la harta site-ului XML.
Ar trebui să efectuați o verificare automată, deoarece automatizarea proceselor vă va aduce cu siguranță mai puține dureri de cap și vă va economisi timp pentru inspecțiile manuale.
Pagini care returnează 200 OK
Includeți adrese care returnează un răspuns 200 OK. Este important să faceți verificări automate și să nu includeți adrese care returnează un răspuns altul decât 200 OK – de exemplu 404, 301 etc.
De exemplu, dacă pagina https://example.com/product returnează un răspuns diferit de 200 OK, atunci nu ar trebui să participe la harta site-ului.
Puteți utiliza următorul instrument pentru verificare: https://soft.galinov.com/ pentru a verifica.
Pagini din paginare
Nu este necesar să includeți absolut toate paginile în sitemap.xml. Botul este suficient de inteligent pentru a putea naviga de pe prima pagină în categoria relevantă dacă este descris corect. Se recomandă să faceți următoarele:
- includeți numai paginile principale ale categoriilor;
- marcați paginile cu rel = next / rel = prev astfel încât robotul să poată vedea legătura dintre ele;
- fiecare pagină a paginației ar trebui să aibă ghidaj canonic către ea însăși, nu către pagina principală, pentru că dacă este invers, va însemna că îi spui botului „Nu contează că am 5.000 de produse și 20 de pagini, ei. sunt la fel ca primul.”
De exemplu, pagina https://example.com/category/page-2 nu ar trebui să participe la hartă. Aici puteți găsi opinia oficială a Google, precum și recomandările acestora:
Minimizați dimensiunea fișierului
Google și Bing au crescut dimensiunile fișierelor de la 10 MB la 50 MB în 2016, dar este totuși o practică bună să vă păstrați Sitemap-ul cât mai mic posibil.
Desigur, nu este ceva de care să vă faceți griji, dar dacă sitemap-ul dvs. conține mai mult de 50.000 de adrese URL sau depășește 50 MB în dimensiune, ar trebui să fie împărțit în mai multe hărți XML. În acest caz, referințele la toate hărțile XML trebuie descrise într-un fișier index separat al hărților de site.
Ce este un fișier index XML Sitemap
Puteți trimite mai multe fișiere Sitemap, dar fiecare fișier trebuie să respecte regulile de mai sus. Dacă doriți, puteți comprima fișierele folosind gzip pentru a le reduce dimensiunea conform cerințelor.
Formatul XML al fișierului index este foarte asemănător cu formatul normal de hartă a site-ului. Acesta trebuie sa contina:
- deschide și închide eticheta ca ;
- o intrare pentru fiecare Sitemap cu atributul principal XML fiind ;
- etichetați la atributul principal.
Este inclus și atributul recomandat.
Notă: fișierul index Sitemap poate lista numai hărți care se află pe același site. De exemplu:
https://example.com/sitemap_index.xml poate include hărți la https://example.com, dar nu la https://www.saitprimer.com sau https://www.example.com
Ca și în cazul tuturor celorlalte fișiere, fișierul index trebuie să fie codificat cu UTF-8.
Următorul exemplu arată un index Sitemap care listează două hărți:
http://www.example.com/sitemap1.xml.gz
2018-10-01T18:23:17+00:00
http://www.example.com/sitemap2.xml.gz
2017-01-01
Descrierea versiunii mobile
Trebuie să ajutăm botul Google să ne găsească conținutul și să înțeleagă legătura dintre paginile desktop și cele mobile. În harta site-ului XML trebuie adăugat atributul rel = „alternativ” pentru paginile versiunii desktop, după cum urmează:
xmlns:xhtml="http://www.w3.org/1999/xhtml”>
http://www.example.com/page-1/
<xhtml:link
rel=”alternativ”
media=”doar ecran și (lățime maximă: 640 px)”
href="http://m.example.com/page-1″ />
Rețineți că fiecare pagină de desktop trebuie să corespundă unei pagini a versiunii mobile. Nu este recomandat, de exemplu, ca mai multe pagini desktop să fie legate prin rel = „alternativ” la o pagină a versiunii mobile și invers.
De asemenea, trebuie să verificați dacă există redirecționări. Este important ca pagina de desktop să corespundă aceluiași conținut în versiunea mobilă și să nu fie redirecționată către alta. Informații suplimentare aici.
Cum vă pot găsi roboții Sitemap-ul dvs. XML
Când ați terminat toată automatizarea procesului și l-ați încărcat pe serverul dvs. (sau l-ați generat de un plugin), trebuie să lăsați un indiciu unde îl pot găsi roboții.
Cel mai bun mod este să includeți un link către acesta în fișierul robots.txt. Aceasta se mai numește și Sitemap Discovery și este ceva pe care Google, Bing și Yahoo l-au introdus în 2007 pentru a-și ajuta roboții să găsească sitemap-uri XML.
Tot ce trebuie să faceți este să includeți calea completă către harta sau fișierul index.
Transliterarea corectă a adreselor
Documentația oficială Google (Build and submit a Sitemap) subliniază că toate valorile datelor (inclusiv adresele URL) trebuie să conțină numai caractere ASCII. Nu poate conține coduri de control sau caractere speciale, cum ar fi * sau {}.
Dacă adresa URL a site-ului dvs. conține aceste caractere, veți primi o eroare când încercați să o adăugați.
Trimiteți harta la Google
Puteți trimite harta site-ului dvs. la Google prin Google Search Console.
Verificați dacă există erori înainte de a trimite. Este important să curățați orice erori care pot constitui un obstacol în calea indexării paginilor de destinație cheie.
În mod ideal, numărul de pagini indexate ar trebui să fie egal cu numărul de pagini trimise.
Concluzie
- Fiți consecvenți – dacă pagina este blocată de robots.txt sau de „noindex”, este mai bine ca aceasta să nu fie în harta dvs. XML.
- Automatizați-vă procesul – toate recomandările de mai sus ar trebui să fie disponibile pentru automatizare, deoarece acest lucru vă va economisi timp, vă va ajuta ca bugetul de crawling să rămână optimizat și, de asemenea, vă va scuti de multe bătăi de cap.
- Dacă aveți un site foarte mare, utilizați un fișier index cu hărți diferite care vă va economisi timp pe server și va acoperi toate paginile importante de pe site-ul dvs.