Негде спрятаться: блокировка контента от поисковых пауков

Опубликовано: 2022-06-12

TL;DR

  1. Если вы планируете исключить контент из поисковых систем, сначала убедитесь, что вы делаете это по правильным причинам.
  2. Не делайте ошибку, предполагая, что вы можете скрыть контент на языке или в формате, который боты не поймут; это недальновидная стратегия. Будьте откровенны с ними, используя файл robots.txt или тег Meta Robots.
  3. Не забывайте, что только потому, что вы используете рекомендуемые методы для блокировки контента, вы в безопасности. Поймите, как блокировка контента сделает ваш сайт видимым для ботов.

Когда и как исключать контент из индекса поисковой системы

Важным аспектом SEO является убеждение поисковых систем в том, что ваш веб-сайт заслуживает уважения и представляет реальную ценность для пользователей. И чтобы поисковые системы определяли ценность и релевантность вашего контента, они должны поставить себя на место пользователя.

Теперь программное обеспечение, которое просматривает ваш сайт, имеет определенные ограничения, которые SEO-специалисты традиционно использовали, чтобы скрыть определенные ресурсы от поисковых систем. Однако боты продолжают развиваться и постоянно становятся все более изощренными в своих попытках увидеть вашу веб-страницу так же, как пользователь-человек в браузере. Пришло время пересмотреть содержимое вашего сайта, которое недоступно для роботов поисковых систем, а также причины, по которым оно недоступно. У ботов все еще есть ограничения, и у веб-мастеров есть законные причины блокировать или экстернализовать определенные фрагменты контента. Поскольку поисковые системы ищут сайты, которые предоставляют пользователям качественный контент, пусть пользовательский опыт направляет ваши проекты, а все остальное встанет на свои места.

Зачем вообще блокировать контент?

когда блокировать поисковых роботов
Фото Стивена Ферриса (CC BY 2.0), изменено
  1. Частный контент. Индексация страниц означает, что они доступны для отображения в результатах поиска и, следовательно, видны всем. Если у вас есть личные страницы (информация об учетных записях клиентов, контактная информация отдельных лиц и т. д.), вы хотите, чтобы они не включались в индекс. (Некоторые сайты типа whois отображают информацию о регистранте в JavaScript, чтобы роботы-скребки не могли украсть личную информацию.)
  2. Дублированный контент. Будь то фрагменты текста (информация о торговой марке, слоганы или описания) или целые страницы (например, результаты пользовательского поиска на вашем сайте), если у вас есть контент, который отображается на нескольких URL-адресах на вашем сайте, пауки поисковых систем могут счесть его некачественным. . Вы можете использовать один из доступных вариантов, чтобы заблокировать эти страницы (или отдельные ресурсы на странице) от индексации. Вы можете оставить их видимыми для пользователей, но заблокировать в результатах поиска, что не повлияет на ваш рейтинг контента, который вы хотите отображать в поиске.
  3. Контент из других источников. Контент, такой как реклама, созданный сторонними источниками и дублированный в нескольких местах в Интернете, не является частью основного контента страницы. Если этот рекламный контент многократно дублируется в Интернете, веб-мастер может захотеть запретить просмотр рекламы как части страницы.

Это заботится о том, почему, как насчет того, как?

Я так рада, что ты спросил. Один из методов, который использовался для исключения содержимого из индекса, заключается в загрузке содержимого из заблокированного внешнего источника с использованием языка, который боты не могут анализировать или выполнять; это похоже на то, когда вы произносите слова другому взрослому, потому что не хотите, чтобы малыш в комнате знал, о чем вы говорите. Проблема в том, что малыш в этой ситуации становится умнее. Долгое время, если вы хотели что-то скрыть от поисковых систем, вы могли использовать JavaScript для загрузки этого контента, то есть пользователи его получали, а боты — нет.

Но Google вовсе не скрывает своего желания анализировать JavaScript с помощью своих ботов. И они начинают это делать; Инструмент «Просмотреть как Google» в Инструментах для веб-мастеров позволяет просматривать отдельные страницы так, как их видят боты Google.

снимок экрана Fetch as Google Webmaster Tool

Если вы используете JavaScript для блокировки контента на своем сайте, вам следует проверить некоторые страницы в этом инструменте; скорее всего, Google это видит.

Имейте в виду, однако, что тот факт, что Google может отображать контент в JavaScript, не означает, что контент кэшируется. Инструмент «Выборка и рендеринг» показывает вам, что может видеть бот; чтобы узнать, что индексируется, вы все равно должны проверить кешированную версию страницы.

скриншот того, как найти кеш Google вашего сайта

Существует множество других методов экстернализации контента, которые обсуждают люди: iframes, AJAX, jQuery. Но еще в 2012 году эксперименты показали, что Google может сканировать ссылки, размещенные в iframe; вот такая техника. На самом деле дни общения на языке, который боты не могли понять, подходят к концу.

Но что, если вы вежливо попросите ботов не смотреть на определенные вещи? Блокирование или запрещение элементов в вашем файле robots.txt или теге Meta Robots — это единственный надежный способ (за исключением защиты папок сервера паролем) предотвращения индексации элементов или страниц.

Джон Мюллер недавно заметил, что контент, сгенерированный с помощью фидов AJAX/JSON, будет «невидим для [Google], если вы запретите сканирование вашего JavaScript». Далее он поясняет, что простая блокировка CSS или JavaScript не обязательно повредит вашему рейтингу: «Определенно не существует простой взаимосвязи «CSS или JavaScript запрещены для сканирования, поэтому алгоритмы качества оценивают сайт негативно». Таким образом, лучший способ не допустить попадания контента в индекс — просто попросить поисковые системы не индексировать ваш контент. Это могут быть отдельные URL-адреса, каталоги или внешние файлы.

Это, таким образом, возвращает нас к началу: почему. Прежде чем принять решение о блокировке какого-либо своего контента, убедитесь, что вы знаете, почему вы это делаете, а также риски. Во-первых, блокировать ваши файлы CSS или JavaScript (особенно те, которые существенно влияют на макет вашего сайта) рискованно; среди прочего, он может помешать поисковым системам увидеть, оптимизированы ли ваши страницы для мобильных устройств. Не только это, но и после развертывания Panda 4.0 некоторые сайты, которые сильно пострадали, смогли восстановиться, разблокировав свои CSS и JavaScript, что указывало бы на то, что они были специально нацелены на алгоритм Google для блокировки этих элементов от ботов.

Еще один риск, с которым вы сталкиваетесь при блокировании контента: пауки поисковых систем могут не видеть, что блокируется, но они знают, что что- то блокируется, поэтому они могут быть вынуждены делать предположения о том, что это за контент. Они знают, что реклама, например, часто скрыта в iframe или даже в CSS; поэтому, если у вас слишком много заблокированного контента в верхней части страницы, вы рискуете попасть под действие алгоритма макета страницы «Top Heavy». Любые веб-мастера, читающие это, которые рассматривают возможность использования iframes, должны сначала настоятельно рассмотреть возможность консультации с авторитетным специалистом по поисковой оптимизации. (Вставьте здесь бесстыдную рекламу BCI.)