Nirgendwo mehr zu verbergen: Inhalte vor Suchmaschinen-Spidern blockieren

Veröffentlicht: 2022-06-12

TL;DR

Wenn Sie erwägen, Inhalte von Suchmaschinen auszuschließen, stellen Sie zunächst sicher, dass Sie dies aus den richtigen Gründen tun.
Machen Sie nicht den Fehler anzunehmen, dass Sie Inhalte in einer Sprache oder einem Format verstecken können, die die Bots nicht verstehen; das ist eine kurzsichtige Strategie. Seien Sie offen mit ihnen, indem Sie die robots.txt-Datei oder das Meta Robots-Tag verwenden.
Vergessen Sie nicht, dass Sie sicher sind, nur weil Sie die empfohlenen Methoden zum Blockieren von Inhalten verwenden. Verstehen Sie, wie das Blockieren von Inhalten Ihre Website für die Bots erscheinen lässt.

Wann und wie man Inhalte aus einem Suchmaschinenindex ausschließt

Ein wichtiger Aspekt von SEO besteht darin, Suchmaschinen davon zu überzeugen, dass Ihre Website seriös ist und den Suchenden einen echten Mehrwert bietet. Und damit Suchmaschinen den Wert und die Relevanz Ihrer Inhalte bestimmen können, müssen sie sich in die Lage eines Benutzers versetzen.

Nun, die Software, die sich Ihre Website ansieht, hat bestimmte Einschränkungen, die SEOs traditionell ausgenutzt haben, um bestimmte Ressourcen vor den Suchmaschinen zu verbergen. Die Bots entwickeln sich jedoch weiter und werden immer raffinierter in ihren Bemühungen, Ihre Webseite so zu sehen, wie es ein menschlicher Benutzer in einem Browser tun würde. Es ist an der Zeit, die Inhalte auf Ihrer Website, die für Suchmaschinen-Bots nicht verfügbar sind, sowie die Gründe, warum sie nicht verfügbar sind, erneut zu untersuchen. Es gibt immer noch Einschränkungen bei den Bots und Webmaster haben legitime Gründe, bestimmte Inhalte zu blockieren oder zu externalisieren. Da die Suchmaschinen nach Websites suchen, die den Benutzern qualitativ hochwertige Inhalte bieten, lassen Sie sich bei Ihren Projekten von der Benutzererfahrung leiten, und der Rest ergibt sich von selbst.

Warum überhaupt Inhalte blockieren?

Wann man Suchmaschinen-Spider blockiert — Foto von Steven Ferris (CC BY 2.0), modifiziert

Private Inhalte. Das Indexieren von Seiten bedeutet, dass sie in den Suchergebnissen angezeigt werden können und daher für die Öffentlichkeit sichtbar sind. Wenn Sie private Seiten haben (Kontoinformationen von Kunden, Kontaktinformationen von Einzelpersonen usw.), möchten Sie diese aus dem Index heraushalten. (Einige Whois-Sites zeigen Registranteninformationen in JavaScript an, um zu verhindern, dass Scraper-Bots persönliche Informationen stehlen.)
Doppelte Inhalte. Ob Textschnipsel (Markeninformationen, Slogans oder Beschreibungen) oder ganze Seiten (z. B. benutzerdefinierte Suchergebnisse innerhalb Ihrer Website), wenn Sie Inhalte haben, die auf mehreren URLs auf Ihrer Website angezeigt werden, sehen Suchmaschinen-Spider dies möglicherweise als minderwertig an . Sie können eine der verfügbaren Optionen verwenden, um zu verhindern, dass diese Seiten (oder einzelne Ressourcen auf einer Seite) indiziert werden. Sie können sie für Benutzer sichtbar, aber für Suchergebnisse gesperrt halten, was Ihre Platzierungen für die Inhalte, die in der Suche angezeigt werden sollen, nicht beeinträchtigt.
Inhalte aus anderen Quellen. Inhalte wie Anzeigen, die von Drittquellen generiert und an mehreren Stellen im Web dupliziert werden, gehören nicht zum Hauptinhalt einer Seite. Wenn dieser Anzeigeninhalt viele Male im gesamten Web dupliziert wird, möchte ein Webmaster möglicherweise verhindern, dass Anzeigen als Teil der Seite angezeigt werden.

Das kümmert sich um das Warum, wie wäre es mit dem Wie?

Ich bin so froh, dass du gefragt hast. Eine Methode, die verwendet wurde, um Inhalte aus dem Index fernzuhalten, besteht darin, den Inhalt aus einer blockierten externen Quelle mit einer Sprache zu laden, die Bots nicht analysieren oder ausführen können. Es ist, als würdest du einem anderen Erwachsenen Wörter buchstabieren, weil du nicht willst, dass das Kleinkind im Raum weiß, wovon du sprichst. Das Problem ist, dass das Kleinkind in dieser Situation klüger wird. Wenn Sie etwas vor den Suchmaschinen verstecken wollten, konnten Sie lange Zeit JavaScript verwenden, um diesen Inhalt zu laden, was bedeutet, dass Benutzer ihn bekommen, Bots nicht.

Aber Google ist überhaupt nicht schüchtern in Bezug auf ihren Wunsch, JavaScript mit ihren Bots zu analysieren. Und sie fangen an, es zu tun; Mit dem Tool "Abruf wie durch Google" in den Webmaster-Tools können Sie einzelne Seiten so sehen, wie sie von den Bots von Google gesehen werden.

Screenshot des Webmaster-Tools Abruf wie durch Google

Wenn Sie JavaScript verwenden, um Inhalte auf Ihrer Website zu blockieren, sollten Sie einige Seiten in diesem Tool überprüfen. Die Chancen stehen gut, Google sieht es.

Denken Sie jedoch daran, dass die Tatsache, dass Google Inhalte in JavaScript rendern kann, nicht bedeutet, dass Inhalte zwischengespeichert werden. Das Tool „Fetch and Render“ zeigt Ihnen, was der Bot sehen kann; Um herauszufinden, was indiziert wird, sollten Sie dennoch die zwischengespeicherte Version der Seite überprüfen.

Screenshot, wie Sie den Google-Cache Ihrer Website finden

Es gibt viele andere Methoden zur Externalisierung von Inhalten, die diskutiert werden: iFrames, AJAX, jQuery. Aber bereits 2012 zeigten Experimente, dass Google in Iframes platzierte Links crawlen konnte; also gibt es diese Technik. Tatsächlich nähern sich die Zeiten, in denen eine Sprache gesprochen wurde, die Bots nicht verstehen konnten, dem Ende.

Aber was ist, wenn Sie die Bots höflich bitten, bestimmte Dinge nicht anzusehen? Das Blockieren oder Verbieten von Elementen in Ihrer robots.txt oder einem Meta Robots-Tag ist die einzige sichere Möglichkeit (abgesehen von passwortgeschützten Serververzeichnissen), um zu verhindern, dass Elemente oder Seiten indexiert werden.

John Mueller kommentierte kürzlich, dass mit AJAX/JSON-Feeds generierte Inhalte „für [Google] unsichtbar wären, wenn Sie das Crawlen Ihres JavaScripts nicht zulassen“. Er stellt weiter klar, dass das einfache Blockieren von CSS oder JavaScript Ihrem Ranking nicht unbedingt schaden wird: „Es gibt definitiv keine einfache Beziehung ‚CSS oder JavaScript darf nicht gecrawlt werden, daher sehen die Qualitätsalgorithmen die Website negativ‘.“ Der beste Weg, Inhalte aus dem Index herauszuhalten, besteht also darin, die Suchmaschinen einfach zu bitten, Ihre Inhalte nicht zu indizieren. Dies können einzelne URLs, Verzeichnisse oder externe Dateien sein.

Das bringt uns also zurück zum Anfang: warum. Bevor Sie sich entscheiden, einen Ihrer Inhalte zu blockieren, stellen Sie sicher, dass Sie den Grund dafür und die Risiken kennen. Zunächst einmal ist es riskant, Ihre CSS- oder JavaScript-Dateien (insbesondere solche, die wesentlich zum Layout Ihrer Website beitragen) zu blockieren. Es kann unter anderem verhindern, dass Suchmaschinen sehen, ob Ihre Seiten für Mobilgeräte optimiert sind. Nicht nur das, aber nach der Einführung von Panda 4.0 konnten sich einige schwer getroffene Websites erholen, indem sie ihre CSS- und JavaScript-Blockierung aufhoben, was darauf hindeutet, dass sie speziell von Googles Algorithmus zum Blockieren dieser Elemente vor Bots angegriffen wurden.

Ein weiteres Risiko, das Sie beim Blockieren von Inhalten eingehen: Suchmaschinen-Spider können möglicherweise nicht sehen, was blockiert wird, aber sie wissen, dass etwas blockiert wird, sodass sie möglicherweise gezwungen sind, Annahmen darüber zu treffen, was dieser Inhalt ist. Sie wissen, dass zum Beispiel Anzeigen oft in Iframes oder sogar CSS versteckt sind; Wenn Sie also zu viele blockierte Inhalte am oberen Rand einer Seite haben, laufen Sie Gefahr, vom „Top Heavy“-Seitenlayoutalgorithmus getroffen zu werden. Alle Webmaster, die dies lesen und erwägen, iframes zu verwenden, sollten unbedingt zuerst einen seriösen SEO konsultieren. (Fügen Sie hier die schamlose BCI-Promo ein.)