XML Sitemap: ключевые рекомендации по оптимизации
Опубликовано: 2021-03-26Файл Sitemap.xml на вашем сайте может служить хорошей навигацией по страницам, которые вы хотите, чтобы бот Google проиндексировал. Это поможет вам быстрее найти ваши главные страницы, даже если у вас нет хорошей внутренней ссылки.
В этой статье мы представим различные рекомендации по оптимизации XML Sitemap и объясним, почему это нужно делать.
Функциональность и преимущества
Упростите работу ботов и дайте возможность получать «отчеты» по страницам и ссылкам на вашем сайте, которые было сложно найти.
Некоторые из преимуществ SEO заключаются в следующем:
- более быстрая индексация – поисковые системы будут намного быстрее находить новые страницы, поэтому процесс индексации и отображения сайта в результатах поиска будет быстрее. Особенность здесь в том, что он также может помочь вам с деиндексацией (дополнительная информация здесь);
- улучшенная индексация внутренних страниц — поисковые системы могут найти страницы, которые не были найдены при сканировании сайта. Но это не обязательно означает, что все они будут проиндексированы.
- мониторинг проиндексированных страниц. В сочетании с консолью поиска Google вы можете узнать, какие URL-адреса включены в карту сайта XML, которую индексирует Google.
Важен ли XML Sitemap?
Это важно для сайтов, которые:
- не имеют хорошей структуры или не имеют хорошего распределения внутренних ссылок;
- иметь много страниц — XML-карта сайта помогает поисковым системам находить новые или обновленные страницы;
- не имейте много входящих ссылок — это будет отличный способ найти ваши страницы.
Требования и форматы
Google поддерживает несколько форматов файлов Sitemap. Все форматы и стандарты можно найти по этому адресу: https://www.sitemaps.org/index.html.
Все форматы ограничивают карту сайта до 50 МБ (без сжатия) и 50 000 адресов. Если у вас есть файл большего размера или больше адресов, вам нужно будет создать индексный файл со всеми картами (описано в статье ниже).
Основные рекомендации таковы:
- файл должен быть в кодировке UTF-8;
- он должен начинаться с открывающего тега и заканчиваться закрывающим тегом, например …. ;
- указать стандартный протокол в теге;
- основной тег для каждой записи URL;
- указать URL, начинающийся с протокола (https или http) в теге, который должен участвовать в основном теге для сохранения.
Дополнительные необязательные атрибуты для карт сайта XML
Google не использует этот атрибут на своих сайтах. Все остальные атрибуты доступны, но от этого зависит, будут ли они отражены. Поэтому имейте в виду, что Google не очень серьезно относится к этим тегам. Они есть:
- – представляет дату последнего изменения файла. Должен быть в формате даты и времени W3C;
- – как часто страница может обновляться. Это значение предоставляет общую информацию о поисковых системах. Допустимыми значениями могут быть всегда, ежечасно, ежедневно, еженедельно, ежемесячно, ежегодно, никогда.
Следует иметь в виду, что значение этого тега рассматривается скорее как подсказка, чем как команда. Роботы видят эту информацию и учитывают ее, но в конечном итоге сами решают, использовать ли ее, в зависимости от множества других факторов.
- – Приоритет URL-адреса над другими URL-адресами на вашем сайте. Допустимые значения находятся в диапазоне от 0,0. до 1,0.
Здесь опять же следует иметь в виду, что этот приоритет относителен и не является обязательным условием для роботов или, по крайней мере, еще не принят в качестве такового. Однако, если вы решите попробовать, воспользуйтесь следующим руководством:
- 0 – 0,3: Устаревшие новости, информация, которая больше не актуальна, но исторически полезна;
- 4–0,7: статьи в блогах, категории страниц, часто задаваемые вопросы;
- 8 – 1.0: Главная страница, страницы продуктов, все страницы с хорошо оптимизированным контентом.
В следующем примере показан файл Sitemap, содержащий только один URL-адрес и использующий все необязательные теги, выделенные курсивом .
https://netpeak.bg
2018-09-15
ежемесячно
0,8
Определение важных страниц
Добавьте качественные страницы и те, которые хорошо оптимизированы. Общее качество имеет большое значение для лучшего ранжирования. Это серьезный фактор для Google, который может дать вам серьезное преимущество перед конкурентами.
Мы не хотим посещать некачественные страницы, как и боты Google. Если вы наведете его на тысячи страниц, которые не будут полезны пользователям и плохо оптимизированы, это может быть только во вред вам. Что такое качественные страницы? Проще говоря, это страницы, которые:
- иметь достаточное количество уникального контента;
- быстро вовлекать своих пользователей, побуждая к действию (комментарии, обзоры и т. д.);
- включать изображения, видео и т. д.;
- не нарушайте политики Google;
Страницы открыты для индексации
Бюджет сканирования обычно представляет собой количество просканированных страниц в единицу времени (день, неделя, месяц и т. д.). Поэтому не рекомендуется тратить его без надобности.
Страницы, содержащие метатег «Noindex», не должны добавляться в карту сайта. следовать логическому порядку важно для всего.
Необходимо сделать автоматическую проверку и не включать закрытые для индексации адреса.
Рекомендуется следовать этим инструкциям:
- Если на странице https://example.com/category/product есть метатег noindex, его не следует включать в XML-карту сайта;
- Когда страница закрыта для индексации через robots.txt, ее не следует включать в XML-карту:
Запретить: /категория/продукт
Noindex: /категория/продукт
- Если страница закрыта для индексации через X-Robots-Tag в HTTP-заголовке, ее также не следует включать в XML-карту сайта:
HTTP/1.1 200 ОК
Дата: вторник, 25 мая 2010 г., 21:42:43 по Гринвичу
(…)
X-Robots-Tag: noindex
(…)
Канонические версии страниц
Доступ к одной странице через несколько URL-адресов с похожим содержанием будет считаться дублированным Google.
Вы должны использовать атрибут «link rel canonical», чтобы указать боту, какая страница является «главной», а какую следует сканировать и индексировать.
Например, если страница https://example.com/category/product-1 имеет каноническую ссылку на https://example.com/product, то http://example.com/category/product-1 не должна участвовать в XML-карта сайта.
Вы должны выполнить автоматическую проверку, так как автоматизация процессов, безусловно, принесет вам меньше головной боли и сэкономит ваше время на ручные проверки.
Страницы, которые возвращают 200 OK
Включите адреса, которые возвращают ответ 200 OK. Важно проводить автоматические проверки и не включать адреса, которые возвращают ответ, отличный от 200 OK — например, 404, 301 и т. д.
Например, если страница https://example.com/product возвращает ответ, отличный от 200 OK, то она не должна участвовать в карте сайта.
Вы можете использовать следующий инструмент для проверки: https://soft.galinov.com/ для проверки.
Страницы из пагинации
Не обязательно включать абсолютно все страницы в sitemap.xml. Бот достаточно умен, чтобы иметь возможность перемещаться с первой страницы в соответствующей категории, если она правильно описана. Рекомендуется сделать следующее:
- включать только главные страницы категорий;
- пометить страницы с rel=next/rel=prev, чтобы робот мог видеть связь между ними;
- каждая страница пагинации должна иметь каноническое руководство к себе, а не к главной странице, потому что если наоборот, то это будет означать, что вы говорите боту: «Неважно, что у меня 5000 товаров и 20 страниц, они такие же, как и первый».
Например, страница https://example.com/category/page-2 не должна участвовать в карте. Здесь вы можете найти официальное мнение Google, а также их рекомендации:
Минимизируйте размер файла
Google и Bing увеличили размер файлов с 10 МБ до 50 МБ в 2016 году, но по-прежнему рекомендуется использовать как можно меньший размер файла Sitemap.
Конечно, не о чем беспокоиться, но если ваша карта сайта содержит более 50 000 URL-адресов или превышает 50 МБ по размеру, ее следует разбить на большее количество XML-карт. В этом случае ссылки на все карты XML должны быть описаны в отдельном индексном файле карты сайта.
Что такое индексный файл XML Sitemap
Вы можете отправить несколько файлов Sitemap, но каждый файл должен соответствовать приведенным выше правилам. Если вы хотите, вы можете сжать файлы с помощью gzip, чтобы уменьшить их размер в соответствии с требованиями.
Формат XML индексного файла очень похож на обычный формат карты сайта. Он должен содержать:
- открывать и закрывать тег как ;
- запись для каждого файла Sitemap с основным XML-атрибутом ;
- тег к основному атрибуту.
Рекомендуемый атрибут также включен.
Примечание . Файл индекса Sitemap может отображать только карты, находящиеся на одном и том же сайте. Например:
https://example.com/sitemap_index.xml может включать карты на https://example.com, но не на https://www.saitprimer.com или https://www.example.com.
Как и все остальные файлы, индексный файл должен иметь кодировку UTF-8.
В следующем примере показан индекс Sitemap, в котором перечислены две карты:
http://www.example.com/sitemap1.xml.gz
2018-10-01T18:23:17+00:00
http://www.example.com/sitemap2.xml.gz
2017-01-01
Описание мобильной версии
Нам нужно помочь боту Google найти наш контент и понять связь между десктопными и мобильными страницами. В карту сайта XML необходимо добавить атрибут rel = «alternate» для страниц десктопной версии следующим образом:
xmlns:xhtml="http://www.w3.org/1999/xhtml">
http://www.example.com/page-1/
<xhtml:ссылка
отн = «альтернативный»
media = «только экран и (максимальная ширина: 640 пикселей)»
href="http://m.example.com/page-1" />
Имейте в виду, что каждая десктопная страница должна соответствовать одной странице мобильной версии. Не рекомендуется, например, несколько десктопных страниц привязывать через rel="alternate" к одной странице мобильной версии и наоборот.
Вы также должны проверить наличие редиректов. Важно, чтобы десктопная страница соответствовала тому же контенту, что и в мобильной версии, а не перенаправляла на другой. Дополнительная информация здесь.
Как боты могут найти ваш XML Sitemap
Когда вы завершили всю автоматизацию процесса и загрузили его на свой сервер (или сгенерировали с помощью плагина), вам нужно оставить подсказку, где боты могут его найти.
Лучше всего включить ссылку на него в файл robots.txt. Это также называется обнаружением карты сайта, и это то, что Google, Bing и Yahoo представили еще в 2007 году, чтобы помочь своим роботам находить карты сайта в формате XML.
Все, что вам нужно сделать, это указать полный путь к вашей карте или индексному файлу.
Правильная транслитерация адресов
В официальной документации Google (Создание и отправка карты сайта) подчеркивается, что все значения данных (включая URL-адреса) должны содержать только символы ASCII. Он не может содержать управляющие коды или специальные символы, такие как * или {}.
Если URL-адрес вашего сайта содержит эти символы, вы получите сообщение об ошибке при попытке добавить его.
Отправьте свою карту в Google
Вы можете отправить карту сайта в Google через Google Search Console.
Перед отправкой проверьте наличие ошибок. Важно устранить любые ошибки, которые могут помешать индексации ключевых целевых страниц.
В идеале количество проиндексированных страниц должно быть равно количеству отправленных страниц.
Вывод
- Будьте последовательны — если страница заблокирована robots.txt или «noindex», лучше, чтобы ее не было в вашей XML-карте.
- Автоматизируйте свой процесс — все приведенные выше рекомендации должны быть доступны для автоматизации, так как это сэкономит ваше время, поможет оптимизировать бюджет сканирования, а также избавит вас от головной боли.
- Если у вас очень большой сайт, используйте индексный файл с различными картами, которые сэкономят время вашего сервера и охватят все важные страницы вашего сайта.