SEO
3. Dezember 2024

Googlebot-Crawling: Hintergründe und Optimierungstipps

Google gibt Einblicke in die Funktionsweise seines Crawlers, Googlebot. Der Artikel beleuchtet, wie Webseiten erfasst und Ressourcen verarbeitet werden, und bietet Empfehlungen zur Optimierung des Crawl-Budgets.

Googlebot-Crawling: Hintergründe und Optimierungstipps

Google hat detaillierte Informationen zur Arbeitsweise seines Web-Crawlers, Googlebot, veröffentlicht. Diese Erläuterungen sollen Webmastern und SEO-Spezialisten ein besseres Verständnis dafür vermitteln, wie Inhalte für die Google-Suche entdeckt und verarbeitet werden. Der Crawling-Prozess ist ein fundamentaler Schritt, bevor eine Webseite in den Suchergebnissen erscheinen kann.

Funktionsweise des Crawlings

Unter Crawling versteht Google den Prozess des Entdeckens neuer und des erneuten Besuchens aktualisierter Webseiten, gefolgt vom Herunterladen dieser Inhalte. Googlebot fordert eine URL an, stellt eine HTTP-Anfrage an den Server und verarbeitet die Antwort. Dabei werden mögliche Weiterleitungen und Fehler behandelt, bevor der Seiteninhalt an Googles Indexierungssystem weitergeleitet wird. Moderne Webseiten bestehen jedoch nicht nur aus reinem HTML, sondern nutzen auch JavaScript, CSS sowie Bilder und Videos.

Verarbeitung von Seitenressourcen

Googlebot geht bei der Verarbeitung von Webseiten ähnlich vor wie ein Browser. Zunächst lädt er die initialen Daten der übergeordneten URL, also das HTML. Diese Daten werden anschliessend an den Web Rendering Service (WRS) übergeben. Der WRS lädt wiederum alle referenzierten Ressourcen wie JavaScript- und CSS-Dateien herunter und konstruiert die Seite, wie es ein Nutzerbrowser tun würde. Die Zeit zwischen diesen Schritten kann aufgrund von Planungsbeschränkungen und der Serverauslastung länger sein, was das sogenannte Crawl-Budget beeinflusst.

Optimierung des Crawl-Budgets

Das Crawlen von Ressourcen, die für das Rendern einer Seite notwendig sind, beansprucht das Crawl-Budget des Hostnamens. Um dies zu mildern, versucht der WRS, alle referenzierten JavaScript- und CSS-Ressourcen zu cachen. Diese Caches können bis zu 30 Tage lang bestehen bleiben und tragen dazu bei, das Crawl-Budget für andere Aufgaben zu schonen. Google empfiehlt Webseitenbetreibern, die Anzahl der benötigten Ressourcen zu minimieren und Cache-Busting-Parameter mit Bedacht einzusetzen. Zudem kann das Hosten von Ressourcen auf einem separaten Hostnamen, beispielsweise über ein CDN oder eine andere Subdomain, zur Entlastung des Crawl-Budgets beitragen. Auch Medienressourcen wie Bilder und Videos verbrauchen Crawl-Budget, wenn sie von Googlebot-Image oder Googlebot-Video abgerufen werden.

Cookie-Einstellungen

Wir nutzen Cookies, um dein Erlebnis zu verbessern und unsere Dienste zu optimieren. Du kannst wählen, welche Cookies du akzeptieren möchtest. Mehr erfahren