Cloudflare ergreift Maßnahmen gegen KI-Scraping im Web

von André Westphal Juli 4, 2024 | 8 Kommentare

Unternehmen hinter generativer KI sind auf große Datenmengen angewiesen, um ihre Modelle zu trainieren. Wie sie an diese Daten gelangen, ist immer wieder Teil von Kontroversen. Da greifen teilweise Bots Daten aus dem Web ab, die nicht jeder Websitebetreiber einfach gratis frei Haus liefern will, damit Konzerne damit ihre Modelle füttern. Cloudflare will hier eingreifen. Der Anbieter stellt Websites ein Content Delivery Network, Internetsicherheitsdienste und verteilte DNS-Dienste zur Verfügung. In seinen Cloud-Service integriert man ein kostenloses Tool, also auch für die Free-Tarife, das KI-Bots identifizieren und blockieren soll.

Dies soll auch bei Bots greifen, die Spoofing betreiben und sich somit als reguläre Nutzer ausgeben, um möglichst unentdeckt Daten abzusaugen. Laut Cloudflare treffe man hier auf ein großes Bedürfnis von Website-Betreibern, sich gegen dieses Scraping zu wehren. 85,2 % der eigenen Kunden wollen demnach KI-Bots sperren. Dabei hat Cloudflare auch erfasst, welche Bots man im letzten Jahr am häufigsten ertappen konnte. Besonders aktiv ist Bytespider, der Bot des chinesischen Unternehmens Bytedance (TikTok). Er griff auf 40,4 % der Websites zu, die Cloudflare einsetzen.

AI Bot	Share of Websites Accessed
Bytespider	40.40%
GPTBot	35.46%
ClaudeBot	11.17%
ImagesiftBot	8.75%
CCBot	2.14%
ChatGPT-User	1.84%
omgili	0.10%
Diffbot	0.08%
Claude-Web	0.04%
PerplexityBot	0.01%

Auf Platz 2 rangiert OpenAIs GPTBot, den Rest könnt ihr auch der obigen Tabelle entnehmen. Dabei werde es laut Cloudflare immer schwerer, KI-Bots daran zu hindern, Inhalte unerlaubt abzugreifen. Die Firmen kennen da offenbar kaum Skrupel. Das sei ein echtes Problem für Websitebetreiber, die viel Zeit, Geld und Aufwand in ihren Content stecken, der von profitorientierten Konzernen gratis für kommerzielle Zwecke mitgenommen und massenhaft verwertet werden soll. Im Grunde ist es ein Kampf, David gegen Goliath.

Cloudflare will fortlaufend an seinen Erkennungs-Algorithmen arbeiten

Dass die KI-Bots und -Crawler dann teilweise bewusst mit User-Agent-Spoofing arbeiten, zeigt, dass die Unternehmen dahinter sicherlich ganz genau wissen, dass ihr Vorgehen unerwünscht und rechtlich mindestens umstritten ist. Cloudflare gibt an, man werde wiederum auch seine Erkennungsmaßnahmen fortlaufend verbessern, um solche schwarzen Schafe ins Visier zu nehmen.

Es sei wichtig, dass Websitebetreiber und Autoren die Kontrolle über ihre Inhalte behalten, anstatt, dass Dritte damit unverhohlen Geld verdienen, ohne die Content-Ersteller zu entschädigen.

#	Produkt	Preis
1	Apple MacBook Air Laptop mit M2 Chip: 13,6" Liquid Retina Display, 16 GB RAM, 256 GB SSD Speicher,...	999,00 EUR	Bei Amazon ansehen
2	Apple 15" MacBook Air Laptop mit M3 Chip: 15,3" Liquid Retina Display, 16 GB gemeinsamer...	1.349,00 EUR	Bei Amazon ansehen
3	Apple 13" MacBook Air Laptop mit M3 Chip: 13,6" Liquid Retina Display, 16 GB gemeinsamer...	1.099,00 EUR	Bei Amazon ansehen

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

André Westphal

Hauptberuflich hilfsbereiter Technik-, Games- und Serien-Geek. Nebenbei Doc in Medienpädagogik und Möchtegern-Schriftsteller. Hofft heimlich eines Tages als Ghostbuster sein Geld zu verdienen oder zumindest das erste Proton Pack der Welt zu testen. Mit geheimniskrämerischem Konto auch bei Facebook zu finden.

Neueste Beiträge

Mit dem Absenden eines Kommentars stimmst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

Dude says:
4. Juli 2024 um 15:22 Uhr

Einige der Bots verhalten sich so aggressiv mit teilweise mehreren Abrufen pro Sekunde, dass dies schon fast einem DoS-Angriff nahekommt. Bei meiner Website werden auch überwiegend uralte Inhalte abgerufen, die nicht im statischen WordPress-Cache gespeichert sind und daher ständig neue PHP-Abfragen erzeugen. So entstehen selbst spät in der Nacht teilweise hohe Serverlasten – inbesondere wenn gleich mehrere Bots gleichzeitig auf der Seite sind. Die meisten Bots habe ich über die robots.txt geblockt und einzelne zusätzlich über Deny-Einträge in der .htaccess.
Martin says:
4. Juli 2024 um 16:06 Uhr

Finde ich nicht schlimm, wer etwas ins Internet stellt muss damit rechnen. Kommt gleich wie in der Google Suche gezeigt werden.

Sollte Cloudflare dagegen vorgehen, würde ich als OpenAI, bessere AIs entwickeln.
- derlinzer says:
  4. Juli 2024 um 16:17 Uhr
  
  Und wieder jemand, der Internet nicht kapiert hat.
  
  Wie denkst du, sollen OpenAI – und andre – bessere AIs entwickeln, wenn Schluss ist, mit kostenlos Daten sammeln? Jetzt denk mal ganz scharf nach.
  - Peter says:
    4. Juli 2024 um 17:12 Uhr
    
    Kostenloses Daten sammeln ohne Berücksichtigung der Urheberrechte nennt man auch Diebstahl….
    - Hirni says:
      4. Juli 2024 um 18:42 Uhr
      
      Und bei der Google Suche ist das kein Problem weil…?
      - Keri says:
        4. Juli 2024 um 19:55 Uhr
        
        Die Suche ist ein Adressbuch und verweist auf ein Angebot. Mittels robots.txt kann man die Suchmaschine steuern und Sachen ausschließen.
        Eine AI zieht sich alle verfügbaren Daten herunter um eigene Angebote daraus zu generieren.
        
        Google verlinkt, AI downloadet.
        Unterschiedlicher können AI Anwendungen und eine Suchmaschine nicht sein.
      - Gast says:
        5. Juli 2024 um 12:56 Uhr
        
        Abgesehen davon, dass Google seine Suchtreffer nicht weiterverwurstet, sondern auf die Quelle verlinkt, kannst du Google schon immer per robots.txt ausschließen.
- Keri says:
  4. Juli 2024 um 16:43 Uhr
  
  Verständlich ist es schon. Nichts frisst Performance und Strom derzeit so stark wie die ganzen AI Anwendungen.
  Google und Microsoft haben ja schon verkündet ihre CO2 Ziele nicht halten zu können und statt dessen deutlich mehr rauszublasen.
  Kurz gesagt, das kostet Cloudflare richtig Geld.

Es werden alle Kommentare moderiert. Lies auch bitte unsere Kommentarregeln:

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor. In jedes Thema Politik einbringen ist nicht erwünscht.

Du willst nichts verpassen?

Du hast die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.

Cloudflare ergreift Maßnahmen gegen KI-Scraping im Web

Cloudflare will fortlaufend an seinen Erkennungs-Algorithmen arbeiten

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Neueste Beiträge

8 Kommentare

Umfrage des Monats

Diese Woche beliebt