SEO
28. März 2025

Robots Exclusion Protocol: Eine zukunftsfähige Weiterentwicklung

Das Robots Exclusion Protocol (REP), insbesondere die robots.txt-Datei, soll an die sich stetig entwickelnde Internetlandschaft angepasst werden. Google beleuchtet, wie dieses etablierte Protokoll die Beziehung zwischen automatisierten Clients und der menschlichen Webnutzung unterstützen kann.

Robots Exclusion Protocol: Eine zukunftsfähige Weiterentwicklung

In einem kürzlich veröffentlichten Bericht thematisiert Google die Zukunft des Robots Exclusion Protocol (REP) und dessen Rolle in der sich wandelnden Interaktion zwischen automatischen Clients und der menschlichen Webnutzung. Dabei werden die bestehenden Komponenten wie robots.txt und URI-Level-Kontrollen beleuchtet.

Standardisierung und Entwicklung

Das REP, insbesondere die robots.txt, wurde 2022 als RFC9309 standardisiert. Diese Standardisierung erfolgte nach einer langen Testphase von 1994 bis 2022, in der sich das Protokoll bei Milliarden von Hosts und allen wichtigen Crawler-Betreibern etablierte. Die Lösung zeichnet sich durch ihre Einfachheit und vielseitige Syntax aus, die es ermöglicht, Präferenzen auszudrücken. In den 25 Jahren seines Bestehens hat es sich kaum von seiner ursprünglichen Form entfernt, wobei die 'allow'-Regel die einzige universell von Crawlern unterstützte Ergänzung darstellt.

Erweiterungen und Konsensbildung

Neben den standardisierten Regeln existieren weitere, von einzelnen Crawler-Betreibern unterstützte Regeln wie 'clean-param' oder 'crawl-delay', die jedoch nicht Teil des RFC9309 sind und beispielsweise von Google Search nicht unterstützt werden. Die 'sitemap'-Regel hingegen wird von allen grossen Suchmaschinen unterstützt und könnte bei ausreichendem Zuspruch offizieller Bestandteil des REP werden. Änderungen am REP sind laut Google nicht einfach, aber notwendig, da das Protokoll mit dem Internet wachsen muss. Für Anpassungen ist ein breiter Konsens aller Beteiligten, also sowohl der Publisher als auch der Crawler-Betreiber, erforderlich. Dies gewährleistet, dass Änderungen der Mehrheit der Nutzer zugutekommen.

Beteiligung der Community

Die Einfachheit und weite Verbreitung des REP machen es zu einem idealen Kandidaten für die Einführung neuer Crawling-Präferenzen. Publisher sind bereits mit der robots.txt und deren Syntax vertraut, was Anpassungen erleichtert. Crawler-Betreiber verfügen über robuste Parser, wie den von Google quelloffen zur Verfügung gestellten robots.txt-Parser, was Parsing-Probleme bei neuen Regeln unwahrscheinlich macht. Auch Erweiterungen auf URI-Ebene, wie der 'X-robots-tag' HTTP-Header oder das Meta-Tag-Äquivalent, sind flexibel anpassbar. Google betont, dass die öffentliche Diskussion und die Sammlung von Unterstützern entscheidend sind, um neue Ideen in den Standard einfliessen zu lassen. Da das REP ein öffentlicher Standard ist, können einzelne Entitäten keine einseitigen Änderungen vornehmen. Der Nachweis des Nutzens für das gesamte Ökosystem – sowohl für Crawler-Betreiber als auch für Publisher – fördert den notwendigen Konsens für eine Aktualisierung des Standards.

Cookie-Einstellungen

Wir nutzen Cookies, um dein Erlebnis zu verbessern und unsere Dienste zu optimieren. Du kannst wählen, welche Cookies du akzeptieren möchtest. Mehr erfahren