Негде спрятаться: блокировка контента от поисковых пауков
Опубликовано: 2022-06-12TL;DR
- Если вы планируете исключить контент из поисковых систем, сначала убедитесь, что вы делаете это по правильным причинам.
- Не делайте ошибку, предполагая, что вы можете скрыть контент на языке или в формате, который боты не поймут; это недальновидная стратегия. Будьте откровенны с ними, используя файл robots.txt или тег Meta Robots.
- Не забывайте, что только потому, что вы используете рекомендуемые методы для блокировки контента, вы в безопасности. Поймите, как блокировка контента сделает ваш сайт видимым для ботов.
Когда и как исключать контент из индекса поисковой системы
Важным аспектом SEO является убеждение поисковых систем в том, что ваш веб-сайт заслуживает уважения и представляет реальную ценность для пользователей. И чтобы поисковые системы определяли ценность и релевантность вашего контента, они должны поставить себя на место пользователя.
Теперь программное обеспечение, которое просматривает ваш сайт, имеет определенные ограничения, которые SEO-специалисты традиционно использовали, чтобы скрыть определенные ресурсы от поисковых систем. Однако боты продолжают развиваться и постоянно становятся все более изощренными в своих попытках увидеть вашу веб-страницу так же, как пользователь-человек в браузере. Пришло время пересмотреть содержимое вашего сайта, которое недоступно для роботов поисковых систем, а также причины, по которым оно недоступно. У ботов все еще есть ограничения, и у веб-мастеров есть законные причины блокировать или экстернализовать определенные фрагменты контента. Поскольку поисковые системы ищут сайты, которые предоставляют пользователям качественный контент, пусть пользовательский опыт направляет ваши проекты, а все остальное встанет на свои места.
Зачем вообще блокировать контент?
- Частный контент. Индексация страниц означает, что они доступны для отображения в результатах поиска и, следовательно, видны всем. Если у вас есть личные страницы (информация об учетных записях клиентов, контактная информация отдельных лиц и т. д.), вы хотите, чтобы они не включались в индекс. (Некоторые сайты типа whois отображают информацию о регистранте в JavaScript, чтобы роботы-скребки не могли украсть личную информацию.)
- Дублированный контент. Будь то фрагменты текста (информация о торговой марке, слоганы или описания) или целые страницы (например, результаты пользовательского поиска на вашем сайте), если у вас есть контент, который отображается на нескольких URL-адресах на вашем сайте, пауки поисковых систем могут счесть его некачественным. . Вы можете использовать один из доступных вариантов, чтобы заблокировать эти страницы (или отдельные ресурсы на странице) от индексации. Вы можете оставить их видимыми для пользователей, но заблокировать в результатах поиска, что не повлияет на ваш рейтинг контента, который вы хотите отображать в поиске.
- Контент из других источников. Контент, такой как реклама, созданный сторонними источниками и дублированный в нескольких местах в Интернете, не является частью основного контента страницы. Если этот рекламный контент многократно дублируется в Интернете, веб-мастер может захотеть запретить просмотр рекламы как части страницы.
Это заботится о том, почему, как насчет того, как?
Я так рада, что ты спросил. Один из методов, который использовался для исключения содержимого из индекса, заключается в загрузке содержимого из заблокированного внешнего источника с использованием языка, который боты не могут анализировать или выполнять; это похоже на то, когда вы произносите слова другому взрослому, потому что не хотите, чтобы малыш в комнате знал, о чем вы говорите. Проблема в том, что малыш в этой ситуации становится умнее. Долгое время, если вы хотели что-то скрыть от поисковых систем, вы могли использовать JavaScript для загрузки этого контента, то есть пользователи его получали, а боты — нет.
Но Google вовсе не скрывает своего желания анализировать JavaScript с помощью своих ботов. И они начинают это делать; Инструмент «Просмотреть как Google» в Инструментах для веб-мастеров позволяет просматривать отдельные страницы так, как их видят боты Google.
Если вы используете JavaScript для блокировки контента на своем сайте, вам следует проверить некоторые страницы в этом инструменте; скорее всего, Google это видит.
Имейте в виду, однако, что тот факт, что Google может отображать контент в JavaScript, не означает, что контент кэшируется. Инструмент «Выборка и рендеринг» показывает вам, что может видеть бот; чтобы узнать, что индексируется, вы все равно должны проверить кешированную версию страницы.
Существует множество других методов экстернализации контента, которые обсуждают люди: iframes, AJAX, jQuery. Но еще в 2012 году эксперименты показали, что Google может сканировать ссылки, размещенные в iframe; вот такая техника. На самом деле дни общения на языке, который боты не могли понять, подходят к концу.
Но что, если вы вежливо попросите ботов не смотреть на определенные вещи? Блокирование или запрещение элементов в вашем файле robots.txt или теге Meta Robots — это единственный надежный способ (за исключением защиты папок сервера паролем) предотвращения индексации элементов или страниц.
Джон Мюллер недавно заметил, что контент, сгенерированный с помощью фидов AJAX/JSON, будет «невидим для [Google], если вы запретите сканирование вашего JavaScript». Далее он поясняет, что простая блокировка CSS или JavaScript не обязательно повредит вашему рейтингу: «Определенно не существует простой взаимосвязи «CSS или JavaScript запрещены для сканирования, поэтому алгоритмы качества оценивают сайт негативно». Таким образом, лучший способ не допустить попадания контента в индекс — просто попросить поисковые системы не индексировать ваш контент. Это могут быть отдельные URL-адреса, каталоги или внешние файлы.
Это, таким образом, возвращает нас к началу: почему. Прежде чем принять решение о блокировке какого-либо своего контента, убедитесь, что вы знаете, почему вы это делаете, а также риски. Во-первых, блокировать ваши файлы CSS или JavaScript (особенно те, которые существенно влияют на макет вашего сайта) рискованно; среди прочего, он может помешать поисковым системам увидеть, оптимизированы ли ваши страницы для мобильных устройств. Не только это, но и после развертывания Panda 4.0 некоторые сайты, которые сильно пострадали, смогли восстановиться, разблокировав свои CSS и JavaScript, что указывало бы на то, что они были специально нацелены на алгоритм Google для блокировки этих элементов от ботов.
Еще один риск, с которым вы сталкиваетесь при блокировании контента: пауки поисковых систем могут не видеть, что блокируется, но они знают, что что- то блокируется, поэтому они могут быть вынуждены делать предположения о том, что это за контент. Они знают, что реклама, например, часто скрыта в iframe или даже в CSS; поэтому, если у вас слишком много заблокированного контента в верхней части страницы, вы рискуете попасть под действие алгоритма макета страницы «Top Heavy». Любые веб-мастера, читающие это, которые рассматривают возможность использования iframes, должны сначала настоятельно рассмотреть возможность консультации с авторитетным специалистом по поисковой оптимизации. (Вставьте здесь бесстыдную рекламу BCI.)