Robots Exclusion Protocol: Eine zukunftsfähige Weiterentwicklung
Das Robots Exclusion Protocol (REP), insbesondere die robots.txt-Datei, soll an die sich stetig entwickelnde Internetlandschaft angepasst werden. Google beleuchtet, wie dieses etablierte Protokoll die Beziehung zwischen automatisierten Clients und der menschlichen Webnutzung unterstützen kann.

In einem kürzlich veröffentlichten Bericht thematisiert Google die Zukunft des Robots Exclusion Protocol (REP) und dessen Rolle in der sich wandelnden Interaktion zwischen automatischen Clients und der menschlichen Webnutzung. Dabei werden die bestehenden Komponenten wie robots.txt und URI-Level-Kontrollen beleuchtet.
Standardisierung und Entwicklung
Das REP, insbesondere die robots.txt, wurde 2022 als RFC9309 standardisiert. Diese Standardisierung erfolgte nach einer langen Testphase von 1994 bis 2022, in der sich das Protokoll bei Milliarden von Hosts und allen wichtigen Crawler-Betreibern etablierte. Die Lösung zeichnet sich durch ihre Einfachheit und vielseitige Syntax aus, die es ermöglicht, Präferenzen auszudrücken. In den 25 Jahren seines Bestehens hat es sich kaum von seiner ursprünglichen Form entfernt, wobei die 'allow'-Regel die einzige universell von Crawlern unterstützte Ergänzung darstellt.
Erweiterungen und Konsensbildung
Neben den standardisierten Regeln existieren weitere, von einzelnen Crawler-Betreibern unterstützte Regeln wie 'clean-param' oder 'crawl-delay', die jedoch nicht Teil des RFC9309 sind und beispielsweise von Google Search nicht unterstützt werden. Die 'sitemap'-Regel hingegen wird von allen grossen Suchmaschinen unterstützt und könnte bei ausreichendem Zuspruch offizieller Bestandteil des REP werden. Änderungen am REP sind laut Google nicht einfach, aber notwendig, da das Protokoll mit dem Internet wachsen muss. Für Anpassungen ist ein breiter Konsens aller Beteiligten, also sowohl der Publisher als auch der Crawler-Betreiber, erforderlich. Dies gewährleistet, dass Änderungen der Mehrheit der Nutzer zugutekommen.
Beteiligung der Community
Die Einfachheit und weite Verbreitung des REP machen es zu einem idealen Kandidaten für die Einführung neuer Crawling-Präferenzen. Publisher sind bereits mit der robots.txt und deren Syntax vertraut, was Anpassungen erleichtert. Crawler-Betreiber verfügen über robuste Parser, wie den von Google quelloffen zur Verfügung gestellten robots.txt-Parser, was Parsing-Probleme bei neuen Regeln unwahrscheinlich macht. Auch Erweiterungen auf URI-Ebene, wie der 'X-robots-tag' HTTP-Header oder das Meta-Tag-Äquivalent, sind flexibel anpassbar. Google betont, dass die öffentliche Diskussion und die Sammlung von Unterstützern entscheidend sind, um neue Ideen in den Standard einfliessen zu lassen. Da das REP ein öffentlicher Standard ist, können einzelne Entitäten keine einseitigen Änderungen vornehmen. Der Nachweis des Nutzens für das gesamte Ökosystem – sowohl für Crawler-Betreiber als auch für Publisher – fördert den notwendigen Konsens für eine Aktualisierung des Standards.