Cloudflare ergreift Maßnahmen gegen KI-Scraping im Web

Unternehmen hinter generativer KI sind auf große Datenmengen angewiesen, um ihre Modelle zu trainieren. Wie sie an diese Daten gelangen, ist immer wieder Teil von Kontroversen. Da greifen teilweise Bots Daten aus dem Web ab, die nicht jeder Websitebetreiber einfach gratis frei Haus liefern will, damit Konzerne damit ihre Modelle füttern. Cloudflare will hier eingreifen. Der Anbieter stellt Websites ein Content Delivery Network, Internetsicherheitsdienste und verteilte DNS-Dienste zur Verfügung. In seinen Cloud-Service integriert man ein kostenloses Tool, also auch für die Free-Tarife, das KI-Bots identifizieren und blockieren soll.

Dies soll auch bei Bots greifen, die Spoofing betreiben und sich somit als reguläre Nutzer ausgeben, um möglichst unentdeckt Daten abzusaugen. Laut Cloudflare treffe man hier auf ein großes Bedürfnis von Website-Betreibern, sich gegen dieses Scraping zu wehren. 85,2 % der eigenen Kunden wollen demnach KI-Bots sperren. Dabei hat Cloudflare auch erfasst, welche Bots man im letzten Jahr am häufigsten ertappen konnte. Besonders aktiv ist Bytespider, der Bot des chinesischen Unternehmens Bytedance (TikTok). Er griff auf 40,4 % der Websites zu, die Cloudflare einsetzen.

AI Bot Share of Websites Accessed
Bytespider 40.40%
GPTBot 35.46%
ClaudeBot 11.17%
ImagesiftBot 8.75%
CCBot 2.14%
ChatGPT-User 1.84%
omgili 0.10%
Diffbot 0.08%
Claude-Web 0.04%
PerplexityBot 0.01%

Auf Platz 2 rangiert OpenAIs GPTBot, den Rest könnt ihr auch der obigen Tabelle entnehmen. Dabei werde es laut Cloudflare immer schwerer, KI-Bots daran zu hindern, Inhalte unerlaubt abzugreifen. Die Firmen kennen da offenbar kaum Skrupel. Das sei ein echtes Problem für Websitebetreiber, die viel Zeit, Geld und Aufwand in ihren Content stecken, der von profitorientierten Konzernen gratis für kommerzielle Zwecke mitgenommen und massenhaft verwertet werden soll. Im Grunde ist es ein Kampf, David gegen Goliath.

Cloudflare will fortlaufend an seinen Erkennungs-Algorithmen arbeiten

Dass die KI-Bots und -Crawler dann teilweise bewusst mit User-Agent-Spoofing arbeiten, zeigt, dass die Unternehmen dahinter sicherlich ganz genau wissen, dass ihr Vorgehen unerwünscht und rechtlich mindestens umstritten ist. Cloudflare gibt an, man werde wiederum auch seine Erkennungsmaßnahmen fortlaufend verbessern, um solche schwarzen Schafe ins Visier zu nehmen.

Es sei wichtig, dass Websitebetreiber und Autoren die Kontrolle über ihre Inhalte behalten, anstatt, dass Dritte damit unverhohlen Geld verdienen, ohne die Content-Ersteller zu entschädigen.

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf ge­lan­gt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir ei­ne kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Avatar-Foto

Hauptberuflich hilfsbereiter Technik-, Games- und Serien-Geek. Nebenbei Doc in Medienpädagogik und Möchtegern-Schriftsteller. Hofft heimlich eines Tages als Ghostbuster sein Geld zu verdienen oder zumindest das erste Proton Pack der Welt zu testen. Mit geheimniskrämerischem Konto auch bei Facebook zu finden.

Neueste Beiträge

Mit dem Absenden eines Kommentars stimmst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

8 Kommentare

  1. Einige der Bots verhalten sich so aggressiv mit teilweise mehreren Abrufen pro Sekunde, dass dies schon fast einem DoS-Angriff nahekommt. Bei meiner Website werden auch überwiegend uralte Inhalte abgerufen, die nicht im statischen WordPress-Cache gespeichert sind und daher ständig neue PHP-Abfragen erzeugen. So entstehen selbst spät in der Nacht teilweise hohe Serverlasten – inbesondere wenn gleich mehrere Bots gleichzeitig auf der Seite sind. Die meisten Bots habe ich über die robots.txt geblockt und einzelne zusätzlich über Deny-Einträge in der .htaccess.

  2. Finde ich nicht schlimm, wer etwas ins Internet stellt muss damit rechnen. Kommt gleich wie in der Google Suche gezeigt werden.

    Sollte Cloudflare dagegen vorgehen, würde ich als OpenAI, bessere AIs entwickeln.

    • derlinzer says:

      Und wieder jemand, der Internet nicht kapiert hat.

      Wie denkst du, sollen OpenAI – und andre – bessere AIs entwickeln, wenn Schluss ist, mit kostenlos Daten sammeln? Jetzt denk mal ganz scharf nach.

      • Kostenloses Daten sammeln ohne Berücksichtigung der Urheberrechte nennt man auch Diebstahl….

        • Und bei der Google Suche ist das kein Problem weil…?

          • Die Suche ist ein Adressbuch und verweist auf ein Angebot. Mittels robots.txt kann man die Suchmaschine steuern und Sachen ausschließen.
            Eine AI zieht sich alle verfügbaren Daten herunter um eigene Angebote daraus zu generieren.

            Google verlinkt, AI downloadet.
            Unterschiedlicher können AI Anwendungen und eine Suchmaschine nicht sein.

          • Abgesehen davon, dass Google seine Suchtreffer nicht weiterverwurstet, sondern auf die Quelle verlinkt, kannst du Google schon immer per robots.txt ausschließen.

    • Verständlich ist es schon. Nichts frisst Performance und Strom derzeit so stark wie die ganzen AI Anwendungen.
      Google und Microsoft haben ja schon verkündet ihre CO2 Ziele nicht halten zu können und statt dessen deutlich mehr rauszublasen.
      Kurz gesagt, das kostet Cloudflare richtig Geld.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Es werden alle Kommentare moderiert. Lies auch bitte unsere Kommentarregeln:

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor. In jedes Thema Politik einbringen ist nicht erwünscht.

Du willst nichts verpassen?

Du hast die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.