Ein bisher beispielloses Datenleck gibt tiefe Einblicke in das Innenleben von Google Search. Tausende Dokumente aus dem internen „Content API Warehouse“ von Google zeigen auf, wie Googles Algorithmus tatsächlich funktioniert – oder zumindest funktioniert hat. Von Klickdaten über Links bis hin zu Chrome-Nutzungsdaten: Das Leak dürfte eines der bedeutendsten Ereignisse in der Geschichte der Suchmaschinenoptimierung sein.
Was passiert ist
Am 13. März 2024 wurden die Dokumente durch ein automatisiertes GitHub-Bot-Konto namens „yoshi-code-bot“ veröffentlicht. Die Dateien gelangten über Rand Fishkin (SparkToro) und Michael King (iPullRank) an die Öffentlichkeit. Beide haben die Dokumente eingesehen und analysiert.
Das steckt drin
- Die Dokumente stammen offenbar aus März 2024 und zeigen 2.596 Module mit 14.014 Attributen.
- Es wird nicht verraten, wie stark einzelne Ranking-Faktoren gewichtet sind.
- Google verwendet sogenannte „Twiddler“ – Funktionen, die das Ranking gezielt anpassen können.
- Inhalte können abgewertet werden, z. B. bei:
- Irreführenden Links
- Schlechten Nutzererfahrungen laut SERP-Signalen
- Geringer Qualität bei Produktrezensionen
- Domains mit exakter Keyword-Übereinstimmung (EMDs)
- Expliziten Inhalten
- Google speichert jede Version einer URL und analysiert die letzten 20 Änderungen im Link-Kontext.
Welche Faktoren laut Leak besonders zählen:
- Links: Relevanz, Vielfalt und weiterhin PageRank – insbesondere der der Startseite.
- Klickverhalten: Metriken wie „badClicks“, „goodClicks“, „lastLongestClicks“ und „unsquashedClicks“.
- Content-Länge und -Originalität: Kürzere Inhalte erhalten einen Originalitäts-Score, lange Inhalte werden ggf. abgeschnitten.
- Marke: Eine bekannte Marke außerhalb der Suche kann organische Rankings erheblich beeinflussen.
- Autoren und Entitäten: Google speichert Informationen zu Autoren und ordnet Inhalte zu.
- SiteAuthority: Ein internes Maß für die Qualität und Autorität einer Domain – lange geleugnet, nun dokumentiert.
- Chrome-Daten: Google nutzt Nutzungsdaten aus dem Chrome-Browser (z. B. ChromeInTotal).
- Whitelists: Bestimmte Domains zu Themen wie Wahlen oder COVID sind in „Whitelists“ enthalten.
Weitere interessante Funde:
- Google analysiert Datumsangaben (in URL, Byline, Text) zur Bewertung der Aktualität.
- Titelrelevanz wird über einen „titlematchScore“ gemessen.
- Schriftgrößen und Ankertexte fließen ebenfalls ein.
Was bedeutet das für SEOs?
Michael King resümiert: „Man muss mehr erfolgreiche Klicks über ein breiteres Set von Suchanfragen generieren und für mehr Link-Diversität sorgen. Das belohnt Google.“
Auch Fishkin betont: „Der Aufbau einer bekannten Marke außerhalb von Google ist der beste Weg zu nachhaltigem Erfolg in der organischen Suche.“
Google reagiert
In einer offiziellen Stellungnahme erklärte Google am 29. Mai, dass die Dokumente „aus dem Zusammenhang gerissen“ seien und nicht den vollständigen Kontext widerspiegeln. Dennoch gilt: Für SEOs ist dies ein seltener und wertvoller Blick hinter die Kulissen von Google Search.
Ausblick: Auf dem SMX Advanced wird es eine Sonder-Session mit Rand Fishkin und Michael King geben, die das Leak und seine Implikationen tiefer beleuchten.