Cloudflare: Perplexity-Crawler verstoßen laut Tests gegen robots.txt

von Benjamin Mamerow Aug. 4, 2025 | 8 Kommentare

Schon im vergangenen Jahr berichteten wir, dass Cloudflare ein kostenloses Tool in seinen Cloud-Service integriert hat, das KI-Bots identifizieren und blockieren soll. Diese Bots sammeln Daten von Websites für das Training von KI-Modellen, oft ohne Erlaubnis der Websitebetreiber. Laut einem frisch veröffentlichten Bericht steht der Vorwurf im Raum, dass das Unternehmen Perplexity eine grundlegende Regel des Internets bricht, um an Daten zu gelangen: das Ignorieren der robots.txt.

Jene Datei ist eine Art digitale Hausordnung von Webseiten-Betreibern. Mehrere solcher Betreiber meldeten laut dem Bericht jedoch, dass Perplexity diese Anweisungen zu ignorieren scheint. Selbst als man die bekannten Crawler des Dienstes per Firewall blockierte, arbeitete die KI einfach einen neuen Plan aus.

Um das zu überprüfen, haben Sicherheitsexperten abgeschottete Test-Webseiten geschaffen, die für die Öffentlichkeit und normale Suchmaschinen komplett unsichtbar waren. Die digitale Tür wurde doppelt verriegelt: durch eine strikte robots.txt-Datei und zusätzliche Firewall-Regeln. Das Ergebnis des anschließenden Tests war folgendes: Fragte man Perplexity nach den Inhalten dieser eigentlich unzugänglichen Seiten, lieferte die KI präzise Antworten.

Die Analyse des Zugriffsverhaltens enthüllte eine interessante Taktik. Perplexity agiert demnach in zwei Schritten:

Der offizielle Versuch: Zuerst klopft der offizielle Crawler Perplexity-User an. Er ist transparent und gibt sich zu erkennen.
Der getarnte Zugriff: Wird dieser erste Versuch blockiert, wechselt das System zu einem zweiten, undokumentierten Crawler. Dieser tarnt sich als gewöhnlicher Webbrowser (Chrome auf einem Mac) und verschleiert seine Herkunft.

Dieser „Schatten-Crawler“ nutzt dann nicht die offiziellen IP-Adressen von Perplexity, sondern wechselt permanent seine IPs und sogar die Netzwerkanbieter (ASNs). Dieses Vorgehen sei kein Versehen, sondern eine bewusste Strategie zur Umgehung von Schutzmaßnahmen, so Cloudflare weiter. Das Vorgehen von Perplexity ist problematisch, da es das Vertrauen zwischen Webseiten-Betreibern und Datensammlern untergräbt. Wenn die einfachsten Regeln ignoriert werden, sind Betreiber gezwungen, technisch immer weiter aufzurüsten.

#	Produkt	Preis
1	AVM Fritz!Box 7530 AX WI-FI 6 DSL-Router (DSL/VDSL,1.800 MBit/s (5GHz)&600 MBit/s (2,4 GHz),bis zu...	134,99 EUR	Bei Amazon ansehen
2	FRITZ!Box 7690 (Wi-Fi 7 DSL-Router mit 5.760 MBit/s (5GHz) & 1.376 MBit/s (2,4 GHz), bis zu 300...	234,35 EUR	Bei Amazon ansehen
3	FRITZ!Box 7590 AX Exclusive Edition (Wi-Fi 6 DSL-Router 2.400 MBit/s (5GHz) & 1.200 MBit/s (2,4...	199,00 EUR	Bei Amazon ansehen

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Benjamin Mamerow

Nordlicht, Ehemann und Vater. Technik-verliebt und lebt fürs Bloggen. Außerdem: Mail: benjamin@caschys.blog / Mastodon

Neueste Beiträge

Mit dem Absenden eines Kommentars stimmst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

Alex says:
4. August 2025 um 20:45 Uhr

Na ja, in dem Fall ist das kein Crawler, der Daten für das Training von KI-Modellen sammelt, sondern ein KI-Agent, der den Inhalt der Webseite abruft, wenn der Benutzer danach fragt.

Das ist – stark vereinfacht – wenn man von cURL erwarten würde, dass cURL den Inhalt von robots.txt auswertet, bevor es was von der Website herunterlädt.
- Ferdi says:
  4. August 2025 um 21:18 Uhr
  
  Danke, genau das dachte ich mir auch. Jetzt ist nun die Frage, ob Perplexity auch so vorgeht, wenn nicht konkret nach dem Inhalt gefragt wird, sonder anhand des Prompts eine „RAG-Suche“ passiert.
- MuLu says:
  6. August 2025 um 10:46 Uhr
  
  Eher so als würde man archive.org sagen es soll darauf zugreifen. Und afaik ignorieren die das nicht.
  
  Dein Vergleich ist eher das selbst aufrufen im Browser.
Marco says:
5. August 2025 um 07:51 Uhr

Dachtet ihr jetzt alle ernsthaft, dass die KI sich an Regeln hält, während das normale Bots/Spider/Crawler schon fast nie machen?

Ich stelle mir da vielmehr immer dieselbe Frage. Wer erstellt noch sinnvoll und hochwertige Inhalte, wenn alle nur noch die KI-Fragen, die KI aber nichts für solche Inhalte bezahlt?
Postsack says:
5. August 2025 um 08:23 Uhr

Ich halte Cloudflare aber auch nicht direkt für die guten Dienstleister.
Aber jetzt mal ungefragt aus dem SSL verschlüsseltem Durchleitungsschatz zu plaudern im Klartext ist schon bizarr.
Sie selber unterstützen direkt und indirekt Urheberrechtsverletzungen und scheuen sich auch Auskunft darüber zu geben.
JansHürgen says:
5. August 2025 um 09:40 Uhr

Ich finde im Umkehrschluss beweist das doch, dass bereits jetzt die großen Modelle auf wirklich „allem“ aus dem frei verfügbaren Internet trainiert werden und wurden.
Das bedeutet aber auch, dass man jetzt schon am Limit der Trainingsdaten ist.. Das erklärt auch das KI-Plateau, dass wir gerade sehen. Abgesehen von den ganzen Fantasie Benchmarks werden die System seit ca. 1 Jahr einfach auch nicht mehr besser sondern neigen sogar zu mehr Halluzinationen.

Steile These aber die Bubble wird bald platzen.
Christian says:
5. August 2025 um 15:54 Uhr

Legt den wertvollen Content hinter PaySchranken und schon ist er nicht mehr frei erhältlich und auch nicht für KI. Wenn sich dann niemand dafür interessiert, war der Content nicht so wertvoll wie gedacht. Kleine Blogs werden sich Gedanken machen müssen wie Ihre Zukunft aussieht.
- Frank says:
  7. August 2025 um 00:14 Uhr
  
  Nein, vielleicht sollte man es mal genau andersherum sehen. Das Internet war ursprünglich nie dafür gedacht, dass man für „Content“ bezahlt. Der Gedanke war, Content unentgeltlich zu teilen. So wie jetzt z.B. bei der Wikipedia. Wikipedia hat sicherlich nichts gegen KI-Crawler, genauso wenig wie die Google-Bots. Das Ziel ist nicht die Monetarisierung, sondern die Verbreitung des Contents.
  
  Das hat jetzt nichts mit Naivität zu tun. Diejenigen, die mit ihren Inhalten politische Botschaften rüberbringen wollen (derzeit in erster Linie Rechtspopulisten und Rechtsextremen) haben das verstanden und verstecken ihre Inhalte meist nie hinter Paywalls. Die großen Verlage und ihre Seiten meistens schon, zumindest in immer größerem Maße. Als Folge erscheinen in sozialen Netzwerken und anderen Dritt-News-Portalen, wo natürlich nur die frei verfügbaren Artikel geteilt werden, überdurchschnittlich viel Propaganda derer mit den politischen Motiven.
  
  Und die Wikipedia wäre nie so gut „bekannt“ (und hätte somit nie so viel Spendengelder erhalten können), wenn Google und Co. ihre Inhalte nicht in ihren Suchergebnissen präsentieren würde.

Es werden alle Kommentare moderiert. Lies auch bitte unsere Kommentarregeln:

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor. In jedes Thema Politik einbringen ist nicht erwünscht. Es besteht kein Recht auf die Veröffentlichung eines Kommentars.

Du willst nichts verpassen?

Du hast die Möglichkeit, den Kommentar-Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.

Cloudflare: Perplexity-Crawler verstoßen laut Tests gegen robots.txt

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Neueste Beiträge

8 Kommentare

Umfrage des Monats

Diese Woche beliebt