[Webinar Digest] SEO in Orbit: Die Geheimnisse der Indizierung entschlüsseln

Veröffentlicht: 2019-11-06

Das Webinar Unlocking the secrets of indexing ist Teil der SEO in Orbit-Serie und wurde am 12. Juni 2019 ausgestrahlt. In dieser Episode teilt Kevin Indig seine Gedanken zum Indexieren von Seiten und wie die für eine Website indexierten Seiten die gesamte Website beeinflussen Rankings und welche Seiten nicht indexiert werden sollten. Was ist der richtige Ansatz für diesen Zwischenschritt zwischen der Entdeckung von Seiten und deren Erscheinen in den SERPs?

SEO in Orbit ist die erste Webinar-Reihe, die SEO in den Weltraum schickt. Während der gesamten Serie haben wir mit einigen der besten SEO-Spezialisten über die Gegenwart und die Zukunft der technischen SEO diskutiert und ihre Top-Tipps am 27. Juni 2019 ins All geschickt.

Sehen Sie sich hier die Wiederholung an:

Vorstellung von Kevin Indig

Kevin Indig hat Startups in den letzten 10 Jahren dabei geholfen, mehr als 100 Millionen Benutzer zu gewinnen. Er ist VP SEO & CONTENT @ G2, Mentor für Growth @ GermanAccelerator und leitete zuvor SEO @ Atlassian und Dailymotion. Seine Spezialgebiete sind Benutzerakquise, Markenaufbau und Benutzerbindung. Zu den Unternehmen, mit denen Kevin zusammengearbeitet hat, gehören eBay, Eventbrite, Bosch, Samsung, Pinterest, Columbia, UBS und viele andere. Er leitet auch den kuratierten technischen Marketing-Newsletter Tech Bound.

Diese Folge wurde von Rebecca Berbel, der Content Managerin bei OnCrawl, moderiert. Fasziniert von NLP und maschinellen Sprachmodellen im Besonderen sowie von Systemen und deren Funktionsweise im Allgemeinen, ist Rebecca nie verlegen, sich für technische SEO-Themen zu begeistern. Sie glaubt an die Verbreitung von Technologie und die Verwendung von Daten, um die Leistung von Websites in Suchmaschinen zu verstehen.

Definitionen

Einer der Gründe, warum es wichtig ist, über Indizierung zu sprechen, ist, dass es sich um ein komplexes Thema handelt. Viele SEOs kämpfen mit der Indexierung und wie sie diese beeinflussen können.

Es ist Zeit für ein weiteres SEO-Quiz.
Sie erstellen eine neue Seite. Was wird es aus dem Google-Index heraushalten?
A. Meta-Roboter noindex
B. Robots.txt-Block
C. Geben Sie der Seite den Meta-Noindex *und* blockieren Sie sie in der robots.txt
– Will Critchlow (@willcritchlow) 9. Juni 2019

– Krabbeln

Crawling ist in einfachen Worten der technische Entdeckungsprozess von Suchmaschinen, der eine Webseite und alle ihre Komponenten versteht.

Dies hilft Google, alle URLs zu finden, die es dann zurückgehen und rendern und dann indizieren und schließlich ranken kann.

– Der dreistufige Prozess von Google

Crawling ist Teil des dreistufigen Prozesses von Google, der dazu führt, dass Suchergebnisse erstellt werden können:

Krabbeln
Rendern
Indizierung

Dies sind technisch unterschiedliche Prozesse, die von unterschiedlichen Programmen oder Teilen der Suchmaschine abgewickelt werden.

Das Ranking ist möglicherweise ein vierter Schritt in diesem Prozess.

– Indizierung

Indexierung ist der Vorgang, bei dem Google URLs zu seiner langen „Liste“ möglicher Ergebnisse hinzufügt. Wenn Kevin das Wort „Index“ in einer Definition von Indizierung vermeiden muss, würde er lieber von einer metaphorischen „Liste“ sprechen: Google hat eine „Liste“ von URLs, die es verwenden kann, um sie zu ranken und den Nutzern als beste Ergebnisse anzuzeigen .

- Protokolldateien

Webserver führen jedes Mal einen Verlauf, wenn irgendjemand oder irgendetwas nach einer Seite oder einer Ressource auf dem Server fragt.

Kevin ist wirklich begeistert von Protokolldateien als Quelle der Wahrheit, wenn es darum geht, zu verstehen, wie Google Ihre Website crawlt und rendert.

In den Protokollen finden wir Serverinformationen darüber, wie oft Google Ihre Website besucht und was es dort tut, in sehr einfachen und einfachen Worten. Protokolldateien enthalten einzelne Aufzeichnungen über jeden Besuch der Website.

Sie können eine Menge Informationen aus Protokolldateien erhalten:

Spezifische Statuscodefehler
Probleme beim Krabbeln
Probleme beim Rendern
Wie viel Zeit Googlebot auf Ihrer Website verbringt
Welche Googlebots kommen auf Ihre Website. Mit dem Mobile-First-Index wurde beispielsweise der Haupt-Googlebot, der für die Indexierung verwendet wird, kürzlich aktualisiert.
Ob Ihre technische Seitenstruktur etwas ist, dem Google folgt, oder ob Sie dort etwas haben, das optimiert werden kann.

Möglichkeiten, die Indizierung zu überprüfen

– Nicht empfohlen: „site:“-Abfragen

Als Kevin vor etwa 10 Jahren mit SEO anfing, sah er, welche Seiten seiner Website indexiert waren, indem er „site:“-Suchen bei Google durchführte. Obwohl er dies manchmal immer noch verwendet, ist es keine zuverlässige Methode mehr, um herauszufinden, ob eine URL indexiert ist.

Vor kurzem fragte er John Mueller nach dieser Strategie; Er bestätigte, dass dies nicht mehr empfohlen wird, um zu überprüfen, was Google indexiert hat oder nicht.

– Empfohlen: URL-Inspektion der Search Console

John Mueller empfiehlt stattdessen, das URL-Inspektionstool in der Search Console zu verwenden, um zu überprüfen, was indexiert wurde.

Die zwischengespeicherte Seite ist nicht immer repräsentativ für das, was indiziert ist, und es ist im Allgemeinen nur das statische HTML, das abgerufen wurde (wenn JavaScript darauf vorhanden ist, wird es normalerweise nicht innerhalb des zwischengespeicherten Hostings ausgeführt). Ich würde mich mehr auf das URL-Inspektionstool konzentrieren.

— ???? John ???? (@JohnMu) 8. Mai 2019

– Empfohlen: XML-Sitemaps und der Abdeckungsbericht

Das Einreichen einer XML-Sitemap in der Search Console ist eine Möglichkeit, einen Stapel Ihrer URLs zu überprüfen und dann die Sitemap im Abdeckungsbericht in der Search Console zu überprüfen.

Bedeutung bei der Unterscheidung zwischen Crawl-Render-Index

Wie bereits erwähnt, gibt es einen dreistufigen Prozess, bei dem Google eine Seite crawlt, rendert und indiziert. Es ist sehr wichtig, zwischen jedem dieser Schritte zu unterscheiden. Da das Web immer ausgefeilter wird, musste Google diese Prozesse individuell anpassen, trennen und verbessern.

Verschiedene Googlebots

Mehrere Googlebots werden von Google zum Crawlen und Rendern von Websites verwendet. Sie haben verschiedene Arten von Ressourcen: Bilder, Videos, Nachrichten, Text … Google verwendet verschiedene Googlebots, um jede Art von Inhalt zu verstehen.

Google gab vor etwa einem Monat bekannt, dass sie ihre Rendering-Engine aktualisiert haben, um auf dem Evergreen Googlebot und der neuesten Chromium-Engine zu laufen.

Dies ist wichtig, da Crawling und Rendering notwendige Schritte sind, die zur Indizierung führen.

Ändern von Prioritäten im Prozess von Google

Zu Indizierungszwecken hat Google früher mit dem Desktop-Googlebot gecrawlt. Das wurde geändert; Sie verwenden jetzt den Smartphone-Googlebot für Indexierungszwecke.

Die Mobile-First-Indexierung wird ab Juli 2019 für alle neuen Websites eingeführt und steht für alle bekannten bestehenden Websites zur Verfügung, sofern sie nicht bereits umgestellt wurden.

Crawl: Möglichkeiten, wie Google URLs zum Indexieren findet

Um eine Seite indexieren zu können, muss Google sie crawlen.

Um sicherzustellen, dass Ihre Seiten korrekt und schnell indexiert werden, müssen Sie als ersten Schritt im Prozess, der zur Indizierung führt, sicherstellen, dass Ihr Crawling „sicher und solide“ ist.

Grundsätzlich gibt es drei Möglichkeiten, wie Google URLs findet:

Links: Darauf basierte das gesamte PageRank-Patent – das Finden neuer Websites über Hyperlinks
XML-Sitemaps
Kriecht vorbei

– Wie Google URLs priorisiert (Crawl-Budget)

Google priorisiert, welche Websites wie oft gecrawlt werden. Dies wird oft als „Crawl-Budget“ bezeichnet.

Im Google Webmaster-Blog gab es einen Artikel über das Crawl-Budget, der einige Ideen dazu gab, wie Google die zu crawlenden Websites priorisiert.

– Popularität: Backlinks und PageRank

Einer der in diesem Artikel festgestellten Punkte ist, dass der PageRank ein Hauptfaktor für die Indizierungsgeschwindigkeit und das Volumen einer Website ist.

Backlinks sind natürlich ein wichtiger Bestandteil des PageRank und haben daher Einfluss auf die Crawling-Rate und die Indexierung.

– Statuscodes

Statuscodes werden ebenfalls berücksichtigt. Wenn Sie beispielsweise viele 404-Seiten auf Ihrer Website haben, wird dies Google wahrscheinlich dazu veranlassen, die Crawling-Frequenz zu reduzieren.

Ein weiteres Beispiel sind Umleitungsketten und -schleifen.

– Baustellenhygiene

Wenn Ihre Website so organisiert ist, dass viel Crawling-Budget verschwendet wird, reduziert Google möglicherweise die Zeit, die es auf Ihrer Website verbringt.

– Seitengeschwindigkeit und Serverantwortzeit

Das Crawl-Budget wird auch durch die Seitengeschwindigkeit und die Antwortzeit des Servers beeinflusst. Google möchte Ihre Website nicht mit DDoS belegen; Wenn es feststellt, dass es Ihrem Server schwer fällt, Seiten und Ressourcen in der von ihm angeforderten Rate bereitzustellen, passt es sich an, was Ihr Server in Bezug auf das Crawling bewältigen kann.

Rendering: Koffein-Update

Das Caffeine-Update, das vor einigen Jahren herauskam, war im Grunde ein Update der Rendering-Struktur von Google.

Indizierung: Verschiedene Cluster für Inhaltstypen

Es gibt verschiedene Indexarchive, die Google verwendet, um unterschiedliche Ergebnisse zurückzugeben. Es ist vernünftig, sich vorzustellen, dass es im Index verschiedene Cluster für Nachrichtenergebnisse und einen weiteren für Bildergebnisse usw. gibt.

Ranking: Separate Algorithmen

Schließlich werden indizierte URLs gerankt – aber das ist ein völlig anderer Algorithmus.

Verbesserung der Indizierungsgeschwindigkeit

Sowohl die schnellere Indexierung von Seiten als auch die Indexierung von mehr Seiten werden stark vom PageRank und damit von Backlinks beeinflusst. Aber die Strategien zur Verbesserung jedes einzelnen sind unterschiedlich.

Wenn Sie möchten, dass Seiten schneller indexiert werden, sollten Sie die ersten beiden Schritte (Crawling und Rendering) optimieren. Dazu gehören Komponenten wie:

Interne Verlinkung
Sitemaps
Servergeschwindigkeit
Seitengeschwindigkeit

Verbesserung der Anzahl der indexierten Seiten

Wenn Sie mehr Seiten indizieren möchten, ist hier der Crawling-Aspekt wichtiger. Sie möchten es Google erleichtern, alle Ihre Seiten zu finden. Dies ist auf einer kleinen Website mit tausend URLs einfach, auf einer größeren Website mit Millionen von URLs jedoch viel schwieriger.

Zum Beispiel hat G2 eine Menge Seiten mit unterschiedlichen Seitentypen. Kevins SEO-Team möchte sicherstellen, dass Google alle Seiten findet, unabhängig von der Crawling-Tiefe und unabhängig davon, wie viele Seiten dieses Typs vorhanden sind. Dies ist eine große Herausforderung, die aus verschiedenen Blickwinkeln angegangen werden muss.

Variation der Crawling-Raten je nach Seitenprofil

Basierend auf der Art der Seite findet Kevin oft unterschiedliche Crawling-Raten von Google. Dies hängt oft vom Backlink-Profil der URL und der internen Verlinkung ab. Hier findet er die meiste Verwendung von Protokolldateien.

Er segmentiert seine Website nach Seitentyp, um zu verstehen, wo die Crawling-Effizienz der Website fehlt oder wo die Crawling-Effizienz zu hoch ist.

Zusammenhang zwischen Crawling-Rate, Indexierungsgeschwindigkeit und Rang

Kevin hat absolut eindeutige Korrelationen zwischen der Crawling-Rate, der Indexierungsgeschwindigkeit und dem Rang für jeden Seitentyp beobachtet. Dies gilt nicht nur für die Websites, mit denen er zusammengearbeitet hat, sondern auch für die Korrespondenz mit anderen SEOs in der Branche.

Ohne eine Kausalität zwischen Crawl, Indexierung und Ranking zu postulieren, scheinen ähnliche Elemente, die die Indexierung vorantreiben, auch beim Ranking einer Seite berücksichtigt zu werden. Wenn Sie zum Beispiel eine Menge Backlinks zu einer bestimmten Seitenvorlage für einen bestimmten Seitentyp haben (Beispiel: Zielseiten), finden Sie in Ihren Protokolldateien, dass Google auf diesen Seiten eine höhere Crawling-Rate hat Website indexiert Google diese Seiten auch schneller und stuft diese Seiten normalerweise höher ein als andere Seiten.

Es ist schwierig, allgemeingültige Aussagen zu machen, die für alle Sites gelten, aber Kevin ermutigt jeden, seine Protokolldateien zu überprüfen, um festzustellen, ob dies auch auf seine eigene Site zutrifft. OnCrawl hat auch festgestellt, dass dies auf vielen verschiedenen Websites, die sie analysiert haben, der Fall ist.

Dies ist Teil dessen, was er mit dem von ihm entwickelten TIPR-Modell der internen Verlinkung zu skizzieren versuchte.

Messung der Crawling-Rate

Um die Crawling-Rate zu messen, möchten Sie die folgende Frage beantworten: Wie oft besucht ein bestimmter Googlebot eine bestimmte URL?

Wie Sie diese andere Frage „schneiden und würfeln“. Kevin sieht sich gerne wöchentlich die Anzahl der Googlebot-Treffer an. Sie können es auch täglich oder monatlich ansehen.

– Fokus auf vorher/nachher

Wichtiger als der Zeitraum, den Sie verwenden, ist die Betrachtung der Änderungen in der Crawling-Rate. Sie sollten sich die Rate ansehen, bevor Sie Änderungen vornehmen und nachdem sie implementiert wurden.

– Konzentration auf Unterschiede zwischen Seitentypen

Ein weiterer Schlüssel zur Messung der Crawling-Rate ist die Untersuchung der Lücken auf Ihrer Website. Wo liegen auf Seitentypebene die Unterschiede zwischen den Crawling-Raten? Welcher Seitentyp wird tonnenweise gecrawlt? Welche Seitentypen werden kaum gecrawlt?

– Häufige Beobachtungen im Krabbelverhalten

Einige interessante Beobachtungen, die Kevin in der Vergangenheit gemacht hat, sind:

Am häufigsten gecrawlte URL: robots.txt
Die meiste Zeit wird für eine URL/Gruppe von URLs aufgewendet: XML-Sitemaps, insbesondere wenn sie etwas größer werden

Das Durchsuchen von Protokolldateien, um Unterschiede im Crawling-Verhalten zwischen Seitentypen zu finden, ist sehr aufschlussreich. Achten Sie darauf, welche URLs täglich gecrawlt werden und welche URLs monatlich gecrawlt werden. Dies kann Ihnen viel darüber sagen, wie effizient die Struktur Ihrer Website für das Crawling (und die Indexierung) ist – auch wenn es einen Schritt dazwischen gibt.

Verteilung des Crawl-Budgets basierend auf dem Geschäftsmodell

Um die Crawling-Effizienz zu verbessern, besteht die Strategie normalerweise darin, die Aufmerksamkeit, die Google einigen Arten von Seiten schenkt, zu reduzieren und sie auf Seiten umzuleiten, die wichtiger als die Website sind.

Wie Sie damit umgehen möchten, hängt davon ab, wie Conversions auf der Website gehandhabt werden. Kevin unterscheidet zwei grundlegende Site-Modelle: zentralisierte und dezentralisierte Geschäftsmodelle:

Dezentrale Modelle können Benutzer auf jeder Seite konvertieren. Ein gutes Beispiel ist Trello: Sie können sich auf jeder Seite anmelden. Alle ihre Seitentypen sind relativ ähnlich. Da für Anmeldungen keine Seite wertvoller ist als eine andere, könnte das Ziel darin bestehen, eine gleichmäßige Crawling-Rate auf der gesamten Website zu haben: Sie möchten, dass alle Arten von Seiten ungefähr mit der gleichen Rate gecrawlt werden.
Zentralisierte Modelle könnten so etwas wie Jira sein. Jira hat keinen einzigen Seitentyp, den wir millionenfach replizieren können: Es gibt nur wenige Zielseiten, auf denen sich Leute anmelden können. Sie möchten sicherstellen, dass sich Ihr Crawl-Budget auf einer Website wie dieser auf Ihre Konversionspunkte (Ihre Zielseiten) konzentriert.

Wie Sie Ihr Crawl-Budget verteilen möchten, kommt auf die Frage zurück, wie Ihre Website Geld verdient und welche Arten von Seiten dabei die wichtigste Rolle spielen.

Crawling-Verschwendung ansprechen

Um Googlebots davon abzuhalten, Crawling-Budget für Seiten auszugeben, die für Conversions weniger wichtig sind, gibt es mehrere Methoden.

Der beste Weg, das Crawlen zu überspringen, ist robots.txt:

In 99,99999 % der Fälle respektiert Google die robots.txt-Anweisungen.
Robots.txt kann helfen, das Crawlen auf großen Abschnitten Ihrer Website mit dünnem oder doppeltem Inhalt zu blockieren (klassische Beispiele: Benutzerprofile in einem Forum; Parameter-URLs …)

Es gibt legitime Fälle, in denen Sie möchten, dass eine Seite nicht indexiert wird, aber trotzdem beim Crawlen hilft. Kevin würde einige Hub-Seiten in diese Kategorie einordnen. Hier würde er einen Meta-Noindex verwenden.

Er erkennt an, dass John Mueller gesagt hat, dass Meta-Noindex-Tags schließlich als nofollow behandelt werden, aber Kevin hat dies bisher noch nie vor Ort erlebt. Er gibt zu, dass dies daran liegen könnte, dass es sehr lange dauert (mehr als ein Jahr oder länger). Stattdessen neigt er dazu, Googlebots als „gierig“ zu empfinden und so viele Links wie möglich zu suchen und ihnen zu folgen.

Kevins Rat lautet, robots.txt zu verwenden, und zwar in vollem Umfang. Sie können Platzhalter und einige sehr ausgefeilte Techniken verwenden, um bestimmte Dinge vor dem Crawlen zu schützen.

Als Faustregel gilt: Je dünner der Inhalt, desto wahrscheinlicher ist es, dass er vom Crawling ausgeschlossen werden kann.

Vom Crawling durch die robots.txt ausgeschlossene Seiten sind weiterhin von Google indexierbar, wenn sie über interne Links oder Backlinks verfügen, die auf sie verweisen. In diesem Fall zeigt der Beschreibungstext in den Suchergebnissen, dass Google die Seite aufgrund einer Einschränkung in robots.txt nicht crawlen konnte. Im Allgemeinen haben diese Seiten jedoch keinen hohen Rang, es sei denn, sie wurden erst kürzlich in robots.txt ausgeschlossen.

Indexierungsprobleme aufgrund ähnlicher Seiten

– Kanonische Fehler

Programmatisch können kanonische Deklarationen sehr leicht falsch gemacht werden. Kevin hat den Fall ein paar Mal gesehen, wo die Kanonik ein Semikolon (;) anstelle eines Doppelpunkts (:) hatte, und dann stößt man auf jede Menge Probleme.

Canonicals sind in einigen Fällen sehr empfindlich und können dazu führen, dass Google all Ihren Canonicals misstraut, was dann zu einem großen Problem werden kann.

Eines der häufigsten Probleme mit Canonicals sind jedoch vergessene Canonicals.

– Site-Migrationen

Site-Migrationen sind oft eine Quelle von Problemen mit Canonicals; Kevin hat Probleme gesehen, bei denen die Website einfach vergessen hat, die neue Domain zu den Canonicals hinzuzufügen.

Dies wird sehr leicht vergessen, insbesondere wenn Ihr CSM eine manuelle (und nicht programmgesteuerte) Anpassung benötigt, um die Änderung während einer Migration vorzunehmen.

Die Standardeinstellung ist, dass das Canonical einer Seite auf sich selbst verweisen sollte, es sei denn, es gibt einen bestimmten Grund, auf eine andere URL zu verweisen.

– HTTP zu HTTPS

Dies ist ein weiterer häufiger kanonischer Fehler, der verhindert, dass die richtige URL indexiert wird. Im Canonical wird manchmal das falsche Protokoll verwendet.

– Fehlerquelle finden, wenn Google das deklarierte Canonical ignoriert

Google wählt manchmal seine eigene kanonische. Wenn sie Ihrem deklarierten Canonical misstrauen, gibt es normalerweise eine Ursache.

Kevin schlägt vor, Situationen zu vermeiden, in denen Sie möglicherweise zwei widersprüchliche Signale an Google senden:

Sehen Sie sich Ihre XML-Sitemaps an
Durchsuchen Sie Ihre eigene Website und suchen Sie nach fehlerhaften Canonicals
Sehen Sie sich die Parametereinstellungen in Ihrer Search Console an, um widersprüchliche Einstellungen zu finden
Verwenden Sie noindex und canonicals nicht gleichzeitig

Arten von Seiten, die zum Aufblähen des Index beitragen

Im SEO wollte man vor zehn Jahren so viele Seiten wie möglich zur Indexierung schicken: Je mehr Seiten indexiert werden, desto besser.

Heute ist das nicht mehr der Fall. Du willst nur die hochwertigsten Sachen in deinem Shop. Sie wollen keinen unterdurchschnittlichen Inhalt im Index.

„Index-Bloat“ wird normalerweise verwendet, um einen Seitentyp zu beschreiben, der keinen Wert bietet. Dies führt häufig zu dünnen Inhalten, insbesondere in Fällen, in denen Sie die Anzahl vorhandener Seiten vervielfachen oder erweitern, ohne auf jeder neuen Seite einen wesentlichen Wert zu erzielen.

Zu den klassischen Fällen, in denen Sie vielleicht prüfen möchten, wie viele Seiten eines bestimmten Typs indexiert sind und ob sie einen zusätzlichen Wert bieten, gehören:

Parameter
Seitennummerierung
Foren
Verzeichnisbezogene Seiten oder Doorway-Pages
Umfangreiche lokale (Stadt-)Seiten, die nicht zwischen Diensten oder Inhalten unterscheiden
Facettierte Navigationen

Wie sich die Indexierung auf eine Website als Ganzes auswirkt

Sie möchten heute keine unterdurchschnittlichen Seiten indizieren lassen, da sie sich darauf auswirken, wie Google Ihre Website als Ganzes sieht und bewertet.

Ein Großteil davon geht auf das Crawl-Budget zurück. Während Gary Illyes und John Mueller oft gesagt haben, dass sich die meisten Websites nicht um das Crawl-Budget kümmern müssen, sind die Zielgruppen für die Art von Diskussion, die wir heute führen, größere Websites, bei denen es einen großen Unterschied macht.

Sie möchten sicherstellen, dass Google nur qualitativ hochwertige Inhalte findet.

Wie die Beziehung, die Kevin zwischen Crawling-Rate, Indizierung und Ranking beobachtet, stellt er auch fest, dass sich die Aufmerksamkeit auf die Qualität der indexierten Seiten für die gesamte Website auszuzahlen scheint. Obwohl es schwierig ist, allgemeingültige Aussagen zu machen, scheint es, dass Google eine Art Website-Qualitätsmesswert hat, der von den indexierten Seiten für diese Website abhängt. Mit anderen Worten, wenn Sie viele minderwertige Inhalte haben, die indexiert sind, scheint dies Ihrer Website zu schaden.

An dieser Stelle ist das Aufblähen des Index nachteilig: Es ist eine Möglichkeit, Ihre Gesamtqualität der Website zu verwässern oder zu senken, und es verschwendet Ihr Crawl-Budget.

XML-Sitemaps zur schnellen Indizierung

Kevin ist der Meinung, dass die Zahl der „Hacks“ im Laufe der Zeit geschrumpft ist, da Google schlauer geworden ist.

Was die Indizierung betrifft, so hat er jedoch herausgefunden, dass eine Möglichkeit, etwas schnell zu indizieren, darin besteht, eine XML-Sitemap zu verwenden.

Kürzlich ist G2 auf eine neue Domain migriert. Sie haben einen Seitentyp, dessen erneutes Crawlen sehr lange dauert, sodass Sie im Google-Index immer noch die alte Domain in den Snippets für Seiten dieses Typs gesehen haben. Als Kevin sah, dass die 301-Weiterleitungen nicht berücksichtigt wurden, weil sie noch nicht gecrawlt wurden, legte er alle Seiten dieses Typs in eine XML-Sitemap und stellte die Sitemap Google in der Search Console zur Verfügung.

Diese Strategie kann auch verwendet werden, wenn es eine große technische Änderung auf der Website gibt, von der Kevin möchte, dass Google sie so schnell wie möglich versteht.

Wachsende Bedeutung von technischem SEO

Technisches SEO hat in den letzten drei Jahren an Bedeutung gewonnen. Oft heben technische SEO-Fragen Bereiche hervor, die wirklich unterschätzt werden.

Oft hört man, dass Content und Backlinks die einzigen Dinge sind, um die man sich kümmern muss. Obwohl Kevin glaubt, dass dies sehr wirkungsvolle SEO-Bereiche sind, glaubt er, dass sie noch mehr Einfluss haben können, wenn Sie Ihr technisches SEO richtig gemacht haben.

[Ebook] Crawlbarkeit

Stellen Sie sicher, dass Ihre Websites die Anforderungen der Suchmaschinen an die Crawlbarkeit erfüllen, um die SEO-Leistung zu steigern.

Lesen Sie das E-Book

Fragen und Antworten

– Bing und Indizierung von 10.000 URLs/Tag

Bing bietet Webmastern die Möglichkeit, bis zu 10.000 URLs pro Tag direkt über ihre Webmaster-Tools für eine schnellere Indexierung einzureichen.

Kevin glaubt, dass dies eine Richtung ist, in die auch Google gehen könnte. Auch Google als eines der wertvollsten Unternehmen der Welt muss seine Ressourcen schonen. Dies ist einer der Gründe, warum sie sich entsprechend anpassen, wenn Sie ihre Crawl-Ressourcen verschwenden.

Ob sich ein solches Feature für Webmaster lohnt, hängt auch von der Größe Ihrer Seite ab. Die Anzahl der Websites, die davon profitieren würden, so viele URLs pro Tag einreichen zu können, ist begrenzt – wahrscheinlich in die Tausende oder Zehntausende. Kevin geht davon aus, dass Google für diese Seiten bereits beträchtliche Ressourcen bereitstellt. Es scheint, dass Google bei den größten Websites im Internet gute Arbeit bei der Indexierung leistet, natürlich mit den üblichen Ausnahmen.

Für Bing ist es wahrscheinlich viel einfacher, etwas in dieser Größenordnung zu implementieren: Zum einen ist ihr Marktanteil viel kleiner, sodass die Nachfrage nach dieser Funktion geringer ist. Ihre Indexgröße ist wahrscheinlich auch viel kleiner, sodass sie wahrscheinlich mehr profitieren werden.

– Wenn Google robots.txt ignoriert

Google ignoriert die robots.txt nur sehr selten.

Was uns manchmal zu der Annahme verleitet, dass Google robots.txt ignoriert, ist, dass Google, wie wir bereits erwähnt haben, manchmal Seiten indizieren kann, die durch robots.txt blockiert sind, die immer noch auf mehreren anderen Wegen gefunden werden können.

Sie können Google möglicherweise auch dazu bringen, Anweisungen in Ihrer robots.txt-Datei zu ignorieren, wenn Ihre Syntax in der robots.txt-Datei falsch ist:

Fehlerhafte Zeichen
Verwendung von Tags, die nicht funktionieren oder nicht funktionieren sollten, wie z. B. noindex-Anweisungen

[Anmerkung: Kevin zitiert eine Fallstudie, in der festgestellt wurde, dass Google die in der robots.txt-Datei enthaltenen noindex-Anweisungen respektiert. Kurz nach der Ausstrahlung dieses Webinars gab Google jedoch das Ende der stillschweigenden Unterstützung dieser Richtlinie in robots.txt-Dateien mit Wirkung zum 1. September 2019 bekannt.]

Google ist jedoch eines der Unternehmen, das seine Bots auf einem hohen Niveau hält und robots.txt nicht ignoriert.

Top Tipp

„PageRank ist der Haupttreiber hinter Indexierungsgeschwindigkeit und -volumen.“

SEO in Orbit ging in den Weltraum

Wenn Sie unsere Reise ins All am 27. Juni verpasst haben, sehen Sie sie sich hier an und entdecken Sie alle Tipps, die wir ins All geschickt haben.