Cloudflare: Perplexity-Crawler verstoßen laut Tests gegen robots.txt

Schon im vergangenen Jahr berichteten wir, dass Cloudflare ein kostenloses Tool in seinen Cloud-Service integriert hat, das KI-Bots identifizieren und blockieren soll. Diese Bots sammeln Daten von Websites für das Training von KI-Modellen, oft ohne Erlaubnis der Websitebetreiber. Laut einem frisch veröffentlichten Bericht steht der Vorwurf im Raum, dass das Unternehmen Perplexity eine grundlegende Regel des Internets bricht, um an Daten zu gelangen: das Ignorieren der robots.txt.

Jene Datei ist eine Art digitale Hausordnung von Webseiten-Betreibern. Mehrere solcher Betreiber meldeten laut dem Bericht jedoch, dass Perplexity diese Anweisungen zu ignorieren scheint. Selbst als man die bekannten Crawler des Dienstes per Firewall blockierte, arbeitete die KI einfach einen neuen Plan aus.

Um das zu überprüfen, haben Sicherheitsexperten abgeschottete Test-Webseiten geschaffen, die für die Öffentlichkeit und normale Suchmaschinen komplett unsichtbar waren. Die digitale Tür wurde doppelt verriegelt: durch eine strikte robots.txt-Datei und zusätzliche Firewall-Regeln. Das Ergebnis des anschließenden Tests war folgendes: Fragte man Perplexity nach den Inhalten dieser eigentlich unzugänglichen Seiten, lieferte die KI präzise Antworten.

Die Analyse des Zugriffsverhaltens enthüllte eine interessante Taktik. Perplexity agiert demnach in zwei Schritten:

  • Der offizielle Versuch: Zuerst klopft der offizielle Crawler Perplexity-User an. Er ist transparent und gibt sich zu erkennen.
  • Der getarnte Zugriff: Wird dieser erste Versuch blockiert, wechselt das System zu einem zweiten, undokumentierten Crawler. Dieser tarnt sich als gewöhnlicher Webbrowser (Chrome auf einem Mac) und verschleiert seine Herkunft.

Dieser „Schatten-Crawler“ nutzt dann nicht die offiziellen IP-Adressen von Perplexity, sondern wechselt permanent seine IPs und sogar die Netzwerkanbieter (ASNs). Dieses Vorgehen sei kein Versehen, sondern eine bewusste Strategie zur Umgehung von Schutzmaßnahmen, so Cloudflare weiter. Das Vorgehen von Perplexity ist problematisch, da es das Vertrauen zwischen Webseiten-Betreibern und Datensammlern untergräbt. Wenn die einfachsten Regeln ignoriert werden, sind Betreiber gezwungen, technisch immer weiter aufzurüsten.

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf ge­lan­gt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir ei­ne kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Avatar-Foto

Nordlicht, Ehemann und Vater. Technik-verliebt und lebt fürs Bloggen. Außerdem: Mail: benjamin@caschys.blog / Mastodon

Neueste Beiträge

Mit dem Absenden eines Kommentars stimmst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

8 Kommentare

  1. Na ja, in dem Fall ist das kein Crawler, der Daten für das Training von KI-Modellen sammelt, sondern ein KI-Agent, der den Inhalt der Webseite abruft, wenn der Benutzer danach fragt.

    Das ist – stark vereinfacht – wenn man von cURL erwarten würde, dass cURL den Inhalt von robots.txt auswertet, bevor es was von der Website herunterlädt.

    • Danke, genau das dachte ich mir auch. Jetzt ist nun die Frage, ob Perplexity auch so vorgeht, wenn nicht konkret nach dem Inhalt gefragt wird, sonder anhand des Prompts eine „RAG-Suche“ passiert.

    • Eher so als würde man archive.org sagen es soll darauf zugreifen. Und afaik ignorieren die das nicht.

      Dein Vergleich ist eher das selbst aufrufen im Browser.

  2. Dachtet ihr jetzt alle ernsthaft, dass die KI sich an Regeln hält, während das normale Bots/Spider/Crawler schon fast nie machen?

    Ich stelle mir da vielmehr immer dieselbe Frage. Wer erstellt noch sinnvoll und hochwertige Inhalte, wenn alle nur noch die KI-Fragen, die KI aber nichts für solche Inhalte bezahlt?

  3. Ich halte Cloudflare aber auch nicht direkt für die guten Dienstleister.
    Aber jetzt mal ungefragt aus dem SSL verschlüsseltem Durchleitungsschatz zu plaudern im Klartext ist schon bizarr.
    Sie selber unterstützen direkt und indirekt Urheberrechtsverletzungen und scheuen sich auch Auskunft darüber zu geben.

  4. JansHürgen says:

    Ich finde im Umkehrschluss beweist das doch, dass bereits jetzt die großen Modelle auf wirklich „allem“ aus dem frei verfügbaren Internet trainiert werden und wurden.
    Das bedeutet aber auch, dass man jetzt schon am Limit der Trainingsdaten ist.. Das erklärt auch das KI-Plateau, dass wir gerade sehen. Abgesehen von den ganzen Fantasie Benchmarks werden die System seit ca. 1 Jahr einfach auch nicht mehr besser sondern neigen sogar zu mehr Halluzinationen.

    Steile These aber die Bubble wird bald platzen.

  5. Legt den wertvollen Content hinter PaySchranken und schon ist er nicht mehr frei erhältlich und auch nicht für KI. Wenn sich dann niemand dafür interessiert, war der Content nicht so wertvoll wie gedacht. Kleine Blogs werden sich Gedanken machen müssen wie Ihre Zukunft aussieht.

    • Nein, vielleicht sollte man es mal genau andersherum sehen. Das Internet war ursprünglich nie dafür gedacht, dass man für „Content“ bezahlt. Der Gedanke war, Content unentgeltlich zu teilen. So wie jetzt z.B. bei der Wikipedia. Wikipedia hat sicherlich nichts gegen KI-Crawler, genauso wenig wie die Google-Bots. Das Ziel ist nicht die Monetarisierung, sondern die Verbreitung des Contents.

      Das hat jetzt nichts mit Naivität zu tun. Diejenigen, die mit ihren Inhalten politische Botschaften rüberbringen wollen (derzeit in erster Linie Rechtspopulisten und Rechtsextremen) haben das verstanden und verstecken ihre Inhalte meist nie hinter Paywalls. Die großen Verlage und ihre Seiten meistens schon, zumindest in immer größerem Maße. Als Folge erscheinen in sozialen Netzwerken und anderen Dritt-News-Portalen, wo natürlich nur die frei verfügbaren Artikel geteilt werden, überdurchschnittlich viel Propaganda derer mit den politischen Motiven.

      Und die Wikipedia wäre nie so gut „bekannt“ (und hätte somit nie so viel Spendengelder erhalten können), wenn Google und Co. ihre Inhalte nicht in ihren Suchergebnissen präsentieren würde.

Es werden alle Kommentare moderiert. Lies auch bitte unsere Kommentarregeln:

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor. In jedes Thema Politik einbringen ist nicht erwünscht. Es besteht kein Recht auf die Veröffentlichung eines Kommentars.

Du willst nichts verpassen?

Du hast die Möglichkeit, den Kommentar-Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.