Wenn Ihre Website ranken soll, muss sie vorher indexiert werden. Soll sie indexiert werden, dann muss sie auch gecrawlt werden.

Crawling und Indexierung sind zwei Prozesse, die fundamental zur SEO-Performance Ihrer Webseite beitragen. In diesem Guide erklären wir Ihnen, was die einzelnen Vorgänge bedeuten und wie Sie das Crawling und die Indexierung für das bestmögliche Ranking optimieren.

Die Einführung in das Crawling

Das Crawling ist die Basis für die Indexierung. Der Crawler, auch Spider oder Bot genannt, geht Webseiten durch und ermittelt die Inhalte einer Website. Anschließend wird sie in den Suchindex aufgenommen (Indexierung) und in Bezug auf Ihre Relevanz für verschiedene Suchanfragen und deren Nutzer beurteilt (Rankings).

Mit dem Crawling-Management steuern Sie den Crawler der Suchmaschine so, dass alle SEO-relevanten Seiten möglichst oft gecrawlt werden. SEO relevante Seiten, enthalten für die Indexierung und das Ranking entscheidenden Links.

Das Indexierungs-Management steuert dann, welche der gecrawlten Seiten auch tatsächlich indexiert werden, also in den Suchergebnissen erscheinen sollen. Unter den Seiten, die in den Index der Suchmaschine aufgenommen wurden, bestimmen dann die Rankingfaktoren, welche Seite an welcher Stelle in den Suchergebnissen erscheint.

Google weist jeder Webseite ein gewisses „Crawl-Budget” zu. Dieser Begriff beschreibt die Zeit, die der Bot auf der Webseite verbringt, um Inhalte zu crawlen. Zeigt man dem Bot nun also „unnötige” Seiten, wird Crawl-Budget „verschwendet”, d.h. Ranking-relevante Seiten bekommen möglicherweise zu wenig Crawl-Budget.

So identifizieren Sie SEO-relevante Seiten

Ausschlaggebend für Rankings sind vor allem die URLs, die einen geeigneten Einstieg aus der organischen Suche bieten. Falls Sie etwa ein Paar Skischuhe kaufen wollen und Sie suchen nach „Salomon Skischuhe“ wäre eine geeignete Einstiegsseite eine Seite, auf der eine Auswahl an Salomon Skischuhen in einem Shop angezeigt werden. Oder aber eine Produktdetailseite, falls Sie exemplarisch nach mehr Details wie „Salomon X pro“ gesucht haben.

Wenn Sie nach „Einbruchschutz“ suchen, dann wäre eine passende Einstiegsseite beispielsweise eine Seite wie diese:

Crawling SEO relevante Seiten erkennen

Typische SEO relevante Seitentypen sind:

  1. Startseiten
  2. Kategorieseiten
  3. Produktdetailseiten
  4. Artikelseiten
  5. Markenseiten
  6. SEO-Landingpages
  7. Magazine, Ratgeber und Blogs

Sind Produktseiten ranking-relevant?

Produktseiten sind praktisch immer SEO-relevant. Jeder Onlineshop möchte gerne Nutzer über die organische Suche erhalten. Die Frage ist allerdings:

Möchten Sie alle Ihre Produkte und Produktvarianten optimieren?

Wenn ja, haben Sie dafür die nötigen Ressourcen?

Je nach Größe Ihres Onlineshops fehlt es in der Praxis jedoch sehr häufig an Zeit oder Geld, um sich alle Produkte und Varianten Stück für Stück vorzunehmen.

Infolgedessen sollten Sie Ihre Produktseiten für die Optimierung priorisieren:

  • Welche Artikel sind Ihre Topseller?
  • Welche Artikel haben eine besonders gute Marge bzw. hohen Preis
  • Welche Produkte sorgen für organischen Traffic?
  • Für welche Produkte und Produktoptionen gibt es hohe Nachfrage in der Suche, d.h. Suchvolumen?

So suchen rund 2600 Nutzer monatlich nach „nike free run“, während die Farbvarianten rot, blau, schwarz nicht gesucht werden. In diesem Fall wäre es somit ausreichend, den Hauptartikel indexieren zu lassen, während die Farbvarianten nicht relevant für das Ranking sind.

Suchvolumen Nike Free Run

Wieso Seiten crawlen lassen, wenn sie gar nicht ranken sollen?

Warum sollte eine Seite für SEO wesentlich sein, wenn sie nicht ranken soll? Weil sie auf ranking-relevante Seiten verlinkt. Diese Seiten haben für den Nutzer einen Mehrwert, sie sind aber keine passenden Einstiegsseiten. Der Crawler muss sich diese Seiten dennoch ansehen, um über diese „Link-Seiten“ andere ranking-relevante Seiten der Website zu finden.

Das klassische Beispiel sind Paginationen, die oft auf Kategorie- oder Übersichtsseiten zu finden sind. Es werden die Produkte oder Artikel einer Kategorie oder eines Themas auf mehreren Seiten angezeigt und über eine nummerierte Navigation (Pagination) miteinander verbunden.

Seiten crawlen lassen ohne Rankings

Dies ist vor allem dann sinnvoll, wenn es zu viele Inhalte gibt, um sie auf einer Seite darzustellen und um zum Beispiel auch die Ladezeit zu verkürzen.

Für das Crawling sind Paginationsseiten relevant, da sie viele Produkte und Artikel verlinken. Für das Ranking sind sie jedoch nicht relevant:

Der Nutzer sollte besser auf Seite 1 einsteigen, weil dort häufig die Bestseller oder neusten Artikel verlinkt werden.

Ein anderes Beispiel sind sogenannte Tag-Seiten bei WordPress. Diese sind häufig nicht optimiert und sind kein guter Einstieg aus der Suche für den Nutzer, weil sie nur verschiedene Artikel auflisten. Auf der anderen Seite enthalten sie viele Links zu Artikeln, die jedoch Ranking-relevant sind.

Beispiel für eine Tag Seite:

Beispiel Crawling Tag Seite

Welche Seitentypen sind nicht SEO relevant?

Ab und zu gibt es auch Seiten, die gar nicht gecrawlt werden müssen. Sie enthalten also weder Inhalte, die für das Ranking relevant sind, noch weisen sie auf solche hin. Ein gutes Beispiel dafür sind Login-Seiten.

Nutzer können Seiten hinter dem Login-Bereich nur aufrufen, wenn sie angemeldet sind. Warenkörbe von Onlineshops zählen ebenfalls dazu.

Ein weiteres Beispiel sind Filterseiten, die nicht Ranking-relevant sind. Zahlreiche Onlineshops und Marktplätze bieten ihren Nutzern viele Filtermöglichkeiten, die meistens kombinierbar sind.

Manche davon sind für die Suche mit Sicherheit relevant, insbesondere wenn Nutzer auch danach suchen, beispielsweise „herrenschuhe braun“ (1370 Suchanfragen im Monat).

Andere werden von den Nutzern jedoch nicht gesucht und sind somit nicht Ranking-relevant, zum Beispiel „herrenschuhe braun gestreift“ (keine Suchanfragen).

Eine Seite mit Filter „braun“ und Filter „gestreift” wäre daher nicht relevant für das Ranking. Auch für das Crawling ist sie nicht relevant, weil sie keine Links beinhaltet, die nicht auf der generischen Seite zu „herrenschuhe” zu finden sind.

Interne Suchergebnis-Seiten sind normalerweise auch nicht Crawling-relevant, weil alle dort verlinkten Seiten auch woanders auf Ihrer Seite verlinkt sein sollten.

Klassische Beispiele für nicht Crawling-relevante Seiten:

  • Warenkörbe
  • Login-Seiten
  • Filter-URLs ohne Ranking-Relevanz
  • Produktvarianten ohne Ranking-Relevanz
  • Interne Suchergebnis-Seiten

Best Practice für das Crawling Ihrer Website

Machen Sie alle Seiten, die für das Ranking, die Indexierung und für das Crawling relevant sind, dem Suchmaschinen-Bot zugänglich. Die restlichen Seiten können Sie in der Regel für den Crawler blockieren.

Bevor Sie jedoch Seiten ausschließen, stellen Sie immer erst nochmal sicher, dass die Seite wirklich nicht relevant ist. Womöglich werden sonst große Teile Ihrer Seite unzugänglich und sie verliert an Sichtbarkeit.

Wir helfen Ihnen dabei, das Crawling Ihrer Website zu verbessern!

Jetzt informieren

So steuern Sie das Crawling auf Ihrer Website

Für die Crawlingsteuerung einer Webseite können Sie auf verschiedene Werkzeuge zurückgreifen. Einige davon dienen eher dazu, für ausreichendes Crawling zu sorgen (positive Crawlingsteuerung), andere dazu, bestimmte Seiten vom Crawling auszuschließen (negative Crawlingsteuerung).

Crawlingsteuerung mit Sitemaps

Grundsätzlich folgt ein Bot jedem Link, den er auf einer Website findet. Das bedeutet, wenn Sie eine saubere interne Linkstruktur haben, findet der Crawler zuverlässig Ihre Seiten. Wie schon angesprochen, teilt Google jeder Webseite ein bestimmtes Crawl-Budget zu, das nicht beeinflussbar ist. Deshalb wissen Sie nicht genau, wie oft der Crawler eine Seite besuchen wird und wie viele und welche Seiten er dabei crawlen wird.

  • Crawl-Budget:

    Das Crawl-Budget hängt damit zusammen, wie viele Anfragen der Google-Bot glaubt, dass Ihre Website händeln kann, ohne sie dadurch zu stark zu beeinträchtigen.

Aus diesem Grund ist eine Sitemap sehr hilfreich. Eine Sitemap ist eine Datei, in der Sie die einzelnen Webseiten Ihrer Website auflisten können. So lassen Sie Google und andere Suchmaschinen wissen, wie die Inhalte Ihrer Website strukturiert sind und welche Sie davon für relevant halten.

Suchmaschinen-Webcrawler wie der Google-Bot lesen diese Datei, um Ihre Website intelligenter crawlen zu können. Eine Sitemap garantiert nicht, dass alle darin angegebenen Inhalte auch wirklich gecrawlt und indexiert werden. Aber Sie können damit den Crawler bei seiner Arbeit unterstützen.

Wann sollten sie eine Sitemap nutzen?

Eine Sitemap spielt eine wesentliche Rolle für die Indexierung einer Webseite. Bei kleinen und bei mittelgroßen Projekten mit wenigen Unterseiten und mit einer guten internen Verlinkung, ist es für den Crawler kein Problem, alle Seiten des Webauftritts zu finden und auszulesen.
Bei großen und umfangreichen Projekten besteht allerdings die Gefahr, dass Suchmaschinenbots neue Seiten einer Domain übersehen.

Die Gründe dafür können sein:

  • Die Webseite ist sehr umfangreich, d.h. sie enthält viele Unterseiten (z.B. Online-Shop, Kleinanzeigenportal)
  • Die Website ist sehr dynamisch, mit vielen Inhalten, die sich häufig ändern (z.b. große Onlineshops)
  • Die einzelnen Inhaltsseiten sind schlecht miteinander verlinkt oder gar voneinander getrennt
  • Die Website ist neu und es gibt nur wenige extern eingehende Links, die auf einzelne Seiten des Webauftritts hinweisen

Welche Voraussetzungen muss eine Sitemap erfüllen?

Die Sitemap wird im Root-Verzeichnis der Website hinterlegt, damit sie für den Crawler leicht auffindbar ist.

Beispiel: https://www.ihrewebsite.de/sitemap.xml

Es gelten folgende formale Anforderungen an die Sitemaps:

  • absolute URLs enthalten (z.B.: https://www.ihrewebsite.de/)
  • im UTF-8-Format codiert sein
  • ausschließlich ASCII-Zeichen enthalten
  • maximal 50MB groß sein
  • maximal 50.000 URLs enthalten

Große Sitemaps sollten also in mehrere kleinere Sitemaps unterteilt werden. Diese müssen dann aus einer Index-Sitemap verlinkt werden.

Welche Arten von Sitemaps gibt es?

Grundsätzlich unterscheidet man zwischen HTML-Sitemaps und XML-Sitemaps.

Die beiden Arten von Sitemaps verdanken ihren Namen dem Dateiformat, in dem sie gespeichert werden.

HTML-Sitemap

Eine HTML-Sitemap dient meist zur Orientierung von Nutzern innerhalb einer Webseite und ist intern verlinkt. Der Nutzer kann dort auf eine URL klicken und gelangt direkt zu der gewünschten Seite innerhalb der Webseite.

Sie ist also vergleichbar mit einem Inhaltsverzeichnis.

XML-Sitemap

Eine XML-Sitemap unterscheidet sich vom Aufbau her von einer HTML-Sitemap.

Sie wird in einem Sonderformat verfasst und enthält zusätzliche Metadaten über jede URL, wie zum Beispiel das Datum der letzten Aktualisierung, Änderungshäufigkeiten, Wichtigkeit der URL.

Wie wird die Sitemap für den Bot erreichbar?

Damit der Crawler die Sitemap einer Webseite finden und lesen kann, sollten Sie die Sitemap über zwei Wege auffindbar machen:

  1. Durch die robots.txt
    Hinterlegen Sie den Link zur Sitemap in der robots.txt Ihrer Webseite. Da der Bot sich immer zuerst die Anweisungen in der robots.txt anschaut, stellen Sie damit sicher, dass er über die Sitemap auch die wichtigsten Seiten Ihrer Website regelmäßig crawlt.
  2. Über die Google Search Console
    Über den Tab „Sitemaps” in der linken Navigationsbar der Search Console können Sie eine oder mehrere Sitemaps einreichen. Der Vorteil einer zusätzlichen Einreichung in der Search Console liegt darin, dass Google hier Auswertungen zu den verarbeiteten URLs aus den Sitemaps gibt. Sie können sich zum Beispiel anzeigen lassen, wie viele der über die Sitemap eingereichten URLs auch wirklich indexiert wurden.
Einreichen Sitemap Search Console

Welche URLs Sie in eine Sitemap aufnehmen sollten

Grundsätzlich sollten nur Ranking-relevanten URLs in die Sitemap aufgenommen werden. Sie wollen ja sichergehen, dass diese auch wirklich gecrawlt werden. Alle anderen Seiten lassen sie weg.

Folgende Seiten sollten nicht enthalten sein:

  • weitergeleitete Seiten (Statuscode 301/302)
  • nicht erreichbare Seiten (Statuscode 404/410)
  • URLs mit den Meta-Robots- Angaben noindex
  • URLs, die eine andere URL (nicht sich selbst) als rel=“canonical“ haben
  • Suchergebnisse/Tags
  • Paginationen
  • Seiten mit beschränktem Zugang (passwortgeschützte Seiten, Statuscode 403 etc.)

Wann ist es sinnvoll, mehrere Sitemaps zu erstellen?

Da eine Sitemap keinen direkten Einfluss auf das Ranking einer Webseite hat, eignet sie sich in Kombination mit der Search Console als Kontrollinstrument dafür, ob alle relevanten URLs indexiert wurden.

Damit eine solche Auswertung besonders einfach wird, empfiehlt es sich, für verschiedene Seitentypen verschiedene Sitemaps anzulegen. Gebündelt werden all diese Sitemaps anschließend in der bereits erwähnten „Index-Sitemap”.

Anstelle der einzelnen Sitemaps wird diese anschließend in der robots.txt und der Google Search Console hinterlegt und dient dem Bot als zentraler Ausgangspunkt für alle Sitemaps.

Ein weiterer Anwendungsfall sind Bilder- oder Video-Sitemaps, wenn Sie Ihre Bilder und Videos selbst hosten und damit Rankings erzielen möchten. Dann laden Sie alle Bilder in eine Image-Sitemap und verlinken diese ebenfalls in der Index-Sitemap.

So erstellen Sie eine Sitemap

Es gibt verschiedene Möglichkeiten, eine Sitemap zu erstellen. Die meisten Content-Management-Systeme und Shopsysteme verfügen bereits über eine Funktion zur Erstellung von Sitemaps.

Falls Sie kein CMS nutzen und Ihre Sitemap „selbst“ erstellen möchten, gibt es zahlreiche Sitemap-Generatoren.

Crawlingsteuerung über die robots.txt Datei

Mit dem Robots-Exclusion-Standard-Protokoll wurde festgelegt, dass die robots.txt Datei die erste sein soll, die ein Bot auf einer Website crawlt. Damit soll sichergestellt werden, dass man den Zugriff auf die eigene Website steuern kann. Dieses Protokoll ist inzwischen zum Standard geworden.

Zwar lässt sich auch in einzelnen HTML-Dateien mithilfe eines Meta-Tags für Suchmaschinen die Verwertung der Seite festlegen, doch das betrifft eben nur die einzelne HTML-Datei und maximal alle darin durch Verweise erreichbaren Seiten, nicht jedoch andere Ressourcen wie z.B. Bilder.

In einer zentralen robots.txt Datei können Sie dagegen unabhängig von der Datei- und Verweisstruktur Ihrer Website festlegen, welche Regeln für Verzeichnisse und Verzeichnisbäume gelten sollen. Da es an einer verbindlichen Dokumentation fehlt, wird die Interpretation der robots.txt und deren Syntax von den Suchmaschinen nicht immer einheitlich gehandhabt.

Die zusätzliche Verwendung von Meta-Tags in HTML-Dateien ist daher in Fällen der unerwünschten Indexierung durch den Crawler zu empfehlen, falls die robots.txt Datei nicht oder falsch interpretiert wurde.

Mit der robots.txt Datei wird der Suchmaschine mitgeteilt, welche Seiten oder Dateien einer Webseite gecrawlt werden dürfen und welche nicht. Dabei lassen sich einzelne Seiten, ganze Verzeichnisse oder auch bestimmte Dateitypen vom Crawling ausschließen.

Wichtig zu wissen ist, dass der Bot zunächst davon ausgeht, dass er die gesamte Webseite crawlen darf. Es muss ihm daher explizit verboten werden, einzelne Seiten oder Dateitypen zu crawlen.

Soll eine Webseite von der Indexierung ausgeschlossen werden, ist die robots.txt kein geeignetes Mittel. Wenn Sie dem Crawler nämlich über die robots.txt den Zugriff auf Teile Ihrer Seite verbieten, dann kann er diese Seiten zwar sehen, aber nicht lesen. Der Crawler kann also nicht sehen, ob Sie zum Beispiel Meta-Robots-Angaben hinterlegt haben, die eine Indexierung verbieten.

Auch für die Crawling-Steuerung ist die robots.txt nur bedingt relevant. Denn verweisen andere Seiten oder auch Sie selbst auf die in der robots.txt blockierten Seiten Ihrer Website, denkt Google, dass sie relevant sein müssen, da ja auf sie verwiesen wird. Am Ende werden sie dann vielleicht doch indexiert, denn der Crawler konnte ja nicht lesen, ob sie indexiert werden sollen oder nicht. Das haben Sie ihm in der robots.txt schließlich verboten.

Solche gesperrten Seiten erkennen Sie in der Google-Suche daran, dass anstelle einer sinnvollen Beschreibungen unter der URL steht: „Für diese Seite sind keine Informationen verfügbar.“

Welche URLs Ihrer Webseite vom Crawling in der robots.txt blockiert sind, aber trotzdem indexiert wurden, können Sie in der Search Console unter „Abdeckung” abrufen:

Es ist wichtig, die Meldungen in der Search Console regelmäßig zu checken und ggf. Verbesserungen an der Webseite vorzunehmen, damit Suchmaschinen die Webseite problemlos crawlen können.

Wo wird die robots.txt abgelegt?

Die robots.txt Datei muss immer im root-Verzeichnis einer Webseite abgelegt werden, also z.B. http://ihrewebsite.de/robots.txt.

Zu beachten ist, dass die robots.txt nur für den Host gilt, auf dem die Datei hinterlegt ist, und für das entsprechende Protokoll.

Beispiel:

http://ihrewebsite.de/robots.txt

ist nicht gültig für

http://shop.ihrewebsite.de/ (da es sich um eine Subdomain shop. handelt)

https://ihrewebsite.de/ (da das Protokoll hier https ist)

gültig für

http://ihrewebsite.de/

http://ihrewebsite.de/kategorie/

Sie können eine robots.txt Datei theoretisch auch auf einer IP-Adresse als Hostnamen hinterlegen. Allerdings ist sie dann nur für diese spezielle IP gültig und nicht automatisch für alle damit verknüpften Websites. Dazu müssen Sie sie explizit für diese Websites freigeben. Besser ist es also, Sie hinterlegen die robots.txt einzeln pro Hostname, da Sie ggf. auch unterschiedliche Spezifikationen an das Crawling der einzelnen Hostnamen haben.

Die Anweisungen in der robots.txt

Die Standard-Syntax der robots.txt ist wie folgt aufgebaut:

User-agent: Welcher User-Agent oder Bot wird angesprochen?
Disallow: Was wird vom Crawling  ausgeschlossen?
Allow: Was darf trotzdem gecrawlt werden?

Die Disallow- und Allow-Anweisungen können sich sowohl auf die komplette Webseite oder auf einzelne Subdomains, Verzeichnisse oder URLs beziehen.

Welche Bots können über die robots.txt gesteuert werden?

In der robots.txt Datei können sowohl einzelne als auch alle Crawler angesprochen werden. Dies dient vor allem der Steuerung des Crawler-Traffics, um zum Beispiel Server-Überlastungen vorzubeugen.

Stellen zu viele Bots Anfragen an Ihren Server, rufen sie also zu viele Seiten gleichzeitig auf, kann das Ihren Server überlasten. Wenn Sie also merken, dass die Lasten zu hoch werden, könnte die Blockade einzelner Bots mittels der robots.txt eine von mehreren Maßnahmen sein.

Neben dem Googlebot oder dem Bing-Bot gibt es auch Tools mit eigenen Crawlern. So haben beispielsweise Screaming Frog oder ahrefs.com ihre eigenen Bots. Zu bedenken ist, dass eine Sperre dieser Bots die Auswertung einer Website erschweren kann, wenn wichtige SEO-Tools eine Seite nicht crawlen können.

Zum Schutz vor Malware-Bots lässt sich die robots.txt leider kaum einsetzen, da sich diese in der Regel nicht an die Vorgaben halten. Seriöse Crawler respektieren dagegen die Angaben in der robots.txt.

Wann ist die Verwendung der robots.txt sinnvoll?

Aus SEO-Gesichtspunkten gibt es eher wenige sinnvolle Anwendungsfälle für den Einsatz der robots.txt. Das liegt daran, dass sich andere Crawling-Werkzeuge als zuverlässiger und besser steuerbar erwiesen haben. Nichtsdestotrotz können Sie die robots.txt in folgenden Fällen nutzen:

  1. Sie entwickeln gerade eine neue Website und möchten diese zunächst noch nicht crawlen lassen, weil sie noch in der Entwicklung ist.
  2. Sie möchten bestimmte Bereiche oder Dateitypen Ihrer Webseite vom Crawling ausschließen und können sicherstellen, dass diese weder intern noch extern verlinkt werden.
  3. Sie möchten einzelnen Tool-Bots das Crawling verbieten.

Bei der robots.txt handelt es sich um ein sehr mächtiges Werkzeug. Daher sollten Sie ganz genau überlegen, was Sie in der robots.txt ausschließen. Am besten enthält sie nur so viele Anweisungen wie nötig und so wenig wie möglich.

Von Google empfohlenes Vorgehen bezüglich der robots.txt

Um sicherzustellen, dass bestimmte Seiten nicht von Google indexiert werden, funktioniert ein „Verbot“ über die robots.txt nur sehr unzuverlässig. Wenn der Google-Bot die URL z. B. über eine externe Verlinkung zu sehen bekommt, crawlt er die Website trotzdem.

Um zuverlässig zu verhindern, dass Ihre Webseiten im Google-Index landen, muss dies in der entsprechenden Seite mit dem noindex-Metatag angegeben werden.

Das heißt, um Seiten zuverlässig aus dem Google-Index zu entfernen, darf der Zugriff in der robots.txt nicht verboten und der noindex-Metatag muss gesetzt werden.

Für nicht-HTML-Elemente, wie z.B. PDF-Datein oder Videos funktioniert dies jedoch nicht. weil diese Elemente kein meta-Element enthalten können. In diesem Fall sollte das X-Robots-Tag verwendet werden.

Kann mit der robots.txt Datei das Crawling einer Website verhindert werden?

Es gibt keine Garantie, dass sich Suchmaschinen an die Verbote in der robots.txt halten. Die überwiegende Mehrheit der Crawler moderner Suchmaschinen berücksichtigt das Vorhandensein einer robots.txt Datei, liest sie aus und befolgt die Anweisungen. Bots, die mit bösen Absichten das Web durchsuchen, halten sich vermutlich nicht daran.

Lassen Sie uns gemeinsam an Ihrer Website arbeiten!

Sprechen Sie mit uns

Einführung in die Indexierung einer Website

Wird eine URL gecrawlt, können Sie mithilfe des Indexierungs-Managements steuern, welche URLs auch tatsächlich in den Suchindex aufgenommen werden dürfen. Und nur diese URLs können am Ende auch Rankings erzielen.

Wenn eine Seite nicht gecrawlt wird, kann der Bot auch die Indexierungs- Einstellungen nicht erkennen.

Im Rahmen der Indexierung stehen folgende Werkzeuge zur Verfügung:

  • Meta Robots/X-Robots „noindex“
  • Canonical Tag
  • 301-Redirects
  • Google Search Console Funktion  „URL entfernen“

Die Verwendung von Meta Robots & X-Robots

Das wichtigste Mittel zur Steuerung der Indexierung sind die Meta-Robots- und die X-Robots-Angaben. Die Robots-Angaben (nicht zu verwechseln mit der robots.txt) teilen dem Crawler mit, ob eine Seite in den Index aufgenommen werden darf oder nicht.

Standardmäßig gehen Suchmaschinen davon aus, dass sie jegliches Dokument aufrufen und über die Google-Suche auffindbar machen dürfen. Entsprechend ist die Steuerung von Crawlern mittels robots-Angaben nur dann notwendig, wenn etwas explizit nicht gewünscht wird.

Das Robots-Meta-Tag ermöglicht Ihnen eine detaillierte, seitenspezifische Herangehensweise, bei der Sie angeben, wie eine bestimmte Seite indexiert und den Nutzern in Google-Suchergebnissen angezeigt werden soll.

Platzieren Sie das Robots-Meta-Tag folgendermaßen im-Abschnitt der jeweiligen Seite:

Meta Robots für Indexierung

Das Robots-Meta-Tag im Beispiel oben weist Suchmaschinen an, die betreffende Seite nicht in den Suchergebnissen anzuzeigen. Der Wert des Attributs name (robots) gibt an, dass die Anweisung für alle Crawler gilt. Wenn du einen bestimmten Crawler ansprechen möchtest, ersetze den Wert robots des name-Attributs durch den Namen des entsprechenden Crawlers. Bestimmte Crawler werden auch als User-Agents bezeichnet.

Ein Crawler verwendet seinen User-Agent, um eine Seite anzufordern. Der Standard-Web-Crawler von Google hat den User-Agent-Namen Googlebot. Wenn du nur den Googlebot am Indexieren deiner Seite hindern möchtest, aktualisiere das Tag folgendermaßen:

Indexierung mit Meta Robots

Robots-Meta-Tag verwenden

Mögliche Angaben im Metatag sind:

Anweisung Bedeutung der Anweisung
noindex Die Seite soll nicht über die Google-Suche auffindbar sein.
nofollow Den (internen & externen) Links auf dieser Seite nicht folgen
none Entspricht der Angabe noindex, nofollow
noarchive Die Seite soll nicht als Kopie im Suchmaschinen-Cache (Zwischenspeicher) aufgenommen werden. Die Angabe hat keinen Einfluss darauf, ob die Seite in der Websuche erscheinen kann.
nosnippet Diese Angabe führt dazu, dass die Meta-Description (Beschreibungstext) nicht angezeigt wird.
notranslate Dadurch wird keine Übersetzung der Seite in den Suchergebnissen angeboten.

X-Robots

Die Angabe von Meta Robots funktioniert nur bei Seiten, die einenbesitzen, also bei HTML-Seiten. Nicht-HTML-Inhalte können mittels der X-Robots von der Indexierung ausgeschlossen werden.

Dazu zählen unter anderem PDF-Dateien. Hier werden serverseitig in der htaccess-Datei (bei Apache-Servern) Regeln definiert, wie bestimmte Dateien oder Dateitypen behandelt werden sollen. Definieren Sie nicht für alle URLs Ihrer Webseite individuell die Indexierungsangaben, gehen Suchmaschinen automatisch davon aus, dass die URL in den Index aufgenommen werden darf.

So funktioniert der Canonical Tag

Der Canonical Tag gehört zu den wichtigsten Instrumenten für den ambitionierten SEO. Mit dem Canonoical Tag, können Sie das häufig auftretende Problem des sogenannten Duplicate Content lösen.

Suchmaschinen bewerten doppelte Inhalte (Duplicate Content) negativ, da kein Mehrwert für den Internetnutzer besteht. Für die Indexierung von Website-Inhalten darf jeder Content also nur unter einer einzigen URL erreichbar sein. Wenn Sie den Inhalt auch auf anderen Seiten bereitstellen möchten, muss die zweite URL auf die ursprüngliche Webseite verweisen und diese als Hauptquelle kennzeichnen. Andernfalls zählen diese gleichen Inhalte als Duplicate Content.

Mindestens eine der beiden Webseiten wird von Google dann aus dem Index genommen. Um das zu vermeiden, greift man auf sogenannte Canonical Tag zurück. Diese erhält man durch die Ergänzung um ein Canonical Tag im Head-Bereich des HTML-Codes.

Der Canonical Tag ist eine Angabe im Quellcode einer Website. Es verweist auf eine Standardressource – die eine kanonische URL – bei Websites mit gleichen oder fast gleichen Inhalten.

Wird eine kanonische URL korrekt ausgezeichnet, so wird nur die Originalquelle zur Indexierung der Suchmaschinen herangezogen. Damit kann vermieden werden, dass der gleiche Content auf unterschiedlichen Seiten von Google als Duplicate Content erkannt wird.

Mit dem Canonical Tag sagen Sie Google also: „Ich bin mir bewusst, dass diese Inhalte doppelt sind, indexiere nur das Original”. Als „Original” sollte hierbei immer die am besten optimierte URL angegeben werden.

Der Tag wird anschließend im Duplikat nach folgendem Schema implementiert:

link rel=“canonical“ href=“https://www.ihrewebsite.de/original/“

Dabei kann derselbe Canonical-Tag auch auf mehreren Seiten eingebunden werden, wenn beispielsweise mehrere Duplikate zu einem Original existieren.

Die URL, auf die der Canonical zeigt, wird als Original markiert. Diese soll in den Suchergebnissen angezeigt werden und muss daher mit der Meta-Robots-Angabe „index“ versehen sein.

Aber Achtung! Die Ziel-URL darf nicht mit „noindex“ ausgewiesen sein, denn diese beiden Signale sind gegenläufig und liefern dem Crawler keine klare Anweisung, wie er mit der URL umgehen soll.

Zeigt der Canonical auf sich selbst (selbstreferenzierender Canonical), also auf die Ausgangs-URL, hat das keinen wirklichen Effekt. In einigen Fällen kann es allerdings leichter umsetzbar sein, wenn auf allen URLs Canonical Tags angegeben werden, unabhängig davon, ob es sich um ähnliche Seiten handelt oder nicht.

Indexierung Canonical Tag

Wann sollten Sie die Canonical Tag einsetzen?

Den Canonical Tag sollten Sie nutzen, wenn Inhalte auf Ihren Seiten sehr ähnlich oder gar Duplikate sind.

Beispiele für den Einsatz des Canonical Tags:

Paginationsseiten

Die Paginationen einer URL sind typischerweise keine Duplikate, da auf ihnen andere Produkte angezeigt werden. Deshalb sollten Paginierungen keinen Canonical Tag auf die Seite 1 aufweisen. Eine Ausnahme stellt die erste Seite selbst dar. Manchmal sind Paginationsseiten nur so umsetzbar, dass es sowohl eine Kategorieseite ohne Parameter als auch eine Seite 1 gibt.

Diese beiden URLs sind tatsächlich Duplikate, da hier auch dieselben Produkte oder Artikel aufgelistet werden. Deshalb sollten Sie von www.ihrewebsite.de/kategorie?page=1 einen Canonical Tag auf die Kategorie www.ihrewebsite.de/kategorie setzen.

Produktvarianten

Können Produktvarianten nicht vom Crawling ausgeschlossen werden, bleibt die Option, sie von der Indexierung auszuschließen. Der Vorteil ist, dass Sie so alle einzelnen Produktvarianten in einer Kategorie anzeigen, ohne doppelte Inhalte zu produzieren.

Bei dieser Variante verwenden Sie das Hauptprodukt als kanonische URL. Es stellt dann die einzig relevante URL für SEO dar, die in den Suchergebnissen angezeigt werden soll. Die anderen Artikelvarianten zeigen dann per Canonical Tag auf den Hauptartikel.

Parameter-URLs

Parameter-URLs sind häufig eine identische Kopie der eigentlichen URL, stellen für die Suchmaschine aber unterschiedliche Seiten dar. Das Problem tritt besonders bei Filterungen, internen Suchseiten, Session-IDs oder Druckversionen von Seiten auf.

In der Regel sind diese URLs nicht SEO-relevant. Sie sollten sie also vom Crawling ausschließen, um Ihr Crawling-Budget effektiv einsetzen zu können. Ist das nicht möglich, können Sie sie aber mithilfe des Canonical Tags zumindest von der Indexierung ausschließen.

Beispiel: https://www.ihrewebsite.de/kategorie? session-id=52345

Diese URL stellt ein Duplikat zu

https://www.ihrewebsite.de/kategorie dar und sollte deshalb per Canonical Tag auf https://www.ihrewebsite.de/kategorie verweisen.

Seiten, die mehreren Kategorien zugeordnet werden

Manchmal werden Artikel oder Produkte über verschiedene Kategorien erreichbar gemacht und sind über mehrere Verzeichnisse aufrufbar. Damit das nicht passiert, sollte ein Inhalt immer nur über eine URL erreichbar sein.

Sie können die Artikel oder Produkte ja dennoch aus mehreren Kategorien verlinken. Der Nutzer kann dann zwar durch die verschiedenen Kategorien Ihres Shops oder Ihrer Website navigieren, landet beim Klick auf einen Artikel oder auf ein Produkt aber immer auf der gleichen URL.

Canonical Tags und hreflang

Wenn eine Webseite mit hreflang arbeitet, sollten die jeweiligen URLs entweder per Canonical Tag auf sich selbst verweisen oder überhaupt keine Canonicals verwenden.

Werden beide Tags gemeinsam genutzt, erhält Google widersprüchliche Signale. Während das hreflang-Tag zeigt, dass eine andere Sprachversion vorhanden ist, würde der Canonical-Tag diese Version zur Original-URL machen.

Externer Duplicate Content 

Beispiel: Externer Duplicate Content kann entstehen, wenn Beiträge über mehrere Domains hinweg veröffentlicht werden. Auch wenn Sie Ihre Webseite beispielsweise über mehrere Hostnamen erreichbar machen, kann das zu einem Problem mit Duplicate Content führen.

Beispiel: Sie haben ihrewebsite.de und ihre-website.de registriert. Sind unter beiden Hostnamen die gleichen Inhalte erreichbar, dann ist das Duplicate Content und Google weiß nicht, welche Ihrer Seiten bewertet werden soll.

Das Gleiche gilt auch, wenn Ihre Webseite sowohl mit www. als auch ohne www. oder unter http und https erreichbar ist.

Anfang 2017 hat Google die Verwendung einer sicheren HTTPS-Verbindung für Webseiten zum wichtigen Ranking-Faktor erhoben. Seither bevorzugt Google HTTPS-Seiten als kanonische URLs. Das Canonical Tag sollte darum vom HTTP-Protokoll zur HTTPS-Seite verweisen, nicht umgekehrt.

So setzt man Redirects ein

Ein weiteres Mittel des Indexierungs-Managements sind Weiterleitungen (Redirects). Die am häufigsten genutzten sind dabei Statuscode 301 sowie Statuscode 302.

Bei Status Code 301 handelt es sich um eine „permanente Weiterleitung”. Der Suchmaschine wird mitgeteilt, dass die Inhalte, die zuvor auf URL A zu finden waren, nun dauerhaft auf URL B zu finden sind. Als Folge wird die Suchmaschine die weitergeleitete URL A aus dem Index entfernen und stattdessen das Weiterleitungsziel URL B indexieren.

Bei Status Code 302 handelt es sich hingegen um eine „temporäre Weiterleitung”. Hier wird der Suchmaschine mitgeteilt, dass die Inhalte der bisher indexierten URL A nur zeitweise auf einer anderen URL B zu finden sind. Die weiterleitende URL A bleibt dadurch weiterhin indexiert, das Weiterleitungsziel URL B wird in der Regel nicht indexiert.

Wann Sie Redirects verwenden sollten 

Wenn Sie eine URL dauerhaft umziehen, sollten Sie immer eine 301-Weiterleitung einrichten. Ziehen Sie eine URL nur temporär um, können Sie eine 302-Weiterleitung nutzen.

Eine weitere Anwendung der 302-Weiterleitung sind URLs, die in einen Bereich der Webseite führen, für den der Nutzer eingeloggt sein muss. Ist er nicht eingeloggt und klickt auf den Link, wird er via 302 Redirect auf die Login-Seite weitergeleitet.

Die Folge: Die Ziel-URL bleibt indexiert, während die Login-Seite nicht indexiert wird.

Wenn Sie eine URL umziehen, denken Sie daran, nicht nur eine Weiterleitung einzurichten, sondern auch alle internen Links anzupassen, damit die alte URL intern nicht mehr verlinkt wird. Das spart Ladezeit und Crawling-Budget.

Der 301 Redirect (301-Weiterleitung)

Die 301 Weiterleitung ist eine Möglichkeit, um eine URL permanent weiterzuleiten. Dieser Redirect wird genutzt, um alte URLs, die nicht mehr gültig sind, auf neue URLs umzuleiten.

Der große Vorteil des 301-Redirect besteht darin, dass diese Weiterleitung praktisch 100 Prozent des Link Juice weitergibt und ein eindeutiges Signal an Suchmaschinen sendet, dass die angeforderte Seite dauerhaft unter einer anderen URL auffindbar ist.

Der 301-Redirect kann zum Beispiel bei Apache-Servern über die Anpassung der htaccess-Datei oder über PHP implementiert werden.

Dieser Code wird für die htaccess-Datei verwendet:

RewriteEngine on
rewritecond %{http_host} ^domain.com [nc] rewriterule ^(.*)$ http://www.domain.com/$1 [r=301,nc]

Wird die 301-Weiterleitung über PHP realisiert, sieht der zu verwendende Code so aus. Er wird direkt im Quellcode des weiterleitenden Dokuments hinterlegt.

!–?php header(„HTTP/1.1 301 Moved Permanently“);
header(„Location: http://www.domain.de/der-neue-name.php“);
header(„Connection: close“); ?–

Entfernen von URLs

Manchmal muss eine URL schnellstmöglich aus dem Google-Index entfernt werden, z.b. weil dort rechtswidrige oder abgemahnte Inhalte sichtbar sind.

Für solche Fälle bietet Google in der Search Console ein Tool zum Entfernen von URLs aus dem Index an.

Dabei sind jedoch folgende Punkte zu beachten:

Ein solcher Ausschluss gilt nur für ca. 90 Tage. Danach werden Ihre Informationen wieder in den Ergebnissen der Google-Suche angezeigt.

Das Löschen des Cache oder das Ausschließen einer URL aus den Suchergebnissen ändert nichts am Crawling-Zeitplan oder am Caching-Verhalten des Google-Bots. Wenn Sie die vorübergehende Blockierung einer URL beantragen, crawlt Google weiterhin Ihre URL, wenn sie vorhanden ist und nicht durch eine andere Methode, z. B. ein „noindex“-Tag, blockiert wird.

Deshalb ist es möglich, dass Ihre Seite noch einmal gecrawlt und im Cache gespeichert wird, bevor Sie sie entfernen oder durch ein Passwort schützen. Sie kann also wieder in den Suchergebnissen erscheinen, nachdem Ihr vorübergehender Ausschluss abgelaufen ist.

Wenn Ihre URL für den Google-Bot nicht zu erreichen ist, geht dieser davon aus, dass die Seite nicht mehr existiert. Der Gültigkeitszeitraum Ihres Antrags auf Blockierung wird deshalb beendet. Wenn unter dieser URL später wieder eine Seite gefunden wird, wird diese als neue Seite betrachtet, die auch in den Ergebnissen der Google-Suche enthalten sein kann.

URL dauerhaft entfernen

Mit dem Tool zum Entfernen von URLs können letztere nur vorübergehend entfernt werden. Wenn Sie Inhalte oder eine URL dauerhaft von der Google-Suche ausschließen möchten, führen Sie mindestens einen der folgenden Schritte durch:

  • Entfernen oder aktualisieren Sie die Inhalte auf Ihrer Website wie Bilder, Seiten oder Verzeichnisse. Prüfen Sie danach, ob Ihr Webserver den HTTP-Statuscode 404 (nicht gefunden) oder 410 (gelöscht) zurückgibt. Nicht-HTML-Dateien wie PDFs sollten vollständig von Ihrem Server entfernt werden.
  • Blockieren Sie den Zugriff auf den Inhalt, z. B. durch ein Passwort.
  • Kennzeichnen Sie die Seite durch das „noindex“-Meta-Tag, damit sie nicht indexiert wird. Diese Methode ist weniger sicher als die anderen.

Fazit zum Crawling & der Indexierung

Sobald Webseiten den Umfang einer kleinen Homepage übersteigen, gehört zu den wichtigsten Aufgaben, dass die vorhandenen Inhalte möglichst vollständig und aktuell in den Google-Index kommen.
Da die Ressourcen für das Erfassen und Speichern von Webseiten begrenzt sind, nutzt Google hierfür individuelle Begrenzungen pro Domain:

Wie viele URLs werden pro Tag gecrawlt, wie viele dieser Seiten davon kommen in den Index?

Umfangreiche Webseiten stoßen schnell an diese Grenzen. Daher ist es wichtig, die verfügbaren Ressourcen mit smartem Crawl- und Indexierung-Management möglichst produktiv einzusetzen.

Unsere SEO Guides

Wir sind Google Premium Partner
Google CSS