Cloudflare ergreift Maßnahmen gegen KI-Scraping im Web
Unternehmen hinter generativer KI sind auf große Datenmengen angewiesen, um ihre Modelle zu trainieren. Wie sie an diese Daten gelangen, ist immer wieder Teil von Kontroversen. Da greifen teilweise Bots Daten aus dem Web ab, die nicht jeder Websitebetreiber einfach gratis frei Haus liefern will, damit Konzerne damit ihre Modelle füttern. Cloudflare will hier eingreifen. Der Anbieter stellt Websites ein Content Delivery Network, Internetsicherheitsdienste und verteilte DNS-Dienste zur Verfügung. In seinen Cloud-Service integriert man ein kostenloses Tool, also auch für die Free-Tarife, das KI-Bots identifizieren und blockieren soll.
Dies soll auch bei Bots greifen, die Spoofing betreiben und sich somit als reguläre Nutzer ausgeben, um möglichst unentdeckt Daten abzusaugen. Laut Cloudflare treffe man hier auf ein großes Bedürfnis von Website-Betreibern, sich gegen dieses Scraping zu wehren. 85,2 % der eigenen Kunden wollen demnach KI-Bots sperren. Dabei hat Cloudflare auch erfasst, welche Bots man im letzten Jahr am häufigsten ertappen konnte. Besonders aktiv ist Bytespider, der Bot des chinesischen Unternehmens Bytedance (TikTok). Er griff auf 40,4 % der Websites zu, die Cloudflare einsetzen.
AI Bot | Share of Websites Accessed |
---|---|
Bytespider | 40.40% |
GPTBot | 35.46% |
ClaudeBot | 11.17% |
ImagesiftBot | 8.75% |
CCBot | 2.14% |
ChatGPT-User | 1.84% |
omgili | 0.10% |
Diffbot | 0.08% |
Claude-Web | 0.04% |
PerplexityBot | 0.01% |
Auf Platz 2 rangiert OpenAIs GPTBot, den Rest könnt ihr auch der obigen Tabelle entnehmen. Dabei werde es laut Cloudflare immer schwerer, KI-Bots daran zu hindern, Inhalte unerlaubt abzugreifen. Die Firmen kennen da offenbar kaum Skrupel. Das sei ein echtes Problem für Websitebetreiber, die viel Zeit, Geld und Aufwand in ihren Content stecken, der von profitorientierten Konzernen gratis für kommerzielle Zwecke mitgenommen und massenhaft verwertet werden soll. Im Grunde ist es ein Kampf, David gegen Goliath.
Cloudflare will fortlaufend an seinen Erkennungs-Algorithmen arbeiten
Dass die KI-Bots und -Crawler dann teilweise bewusst mit User-Agent-Spoofing arbeiten, zeigt, dass die Unternehmen dahinter sicherlich ganz genau wissen, dass ihr Vorgehen unerwünscht und rechtlich mindestens umstritten ist. Cloudflare gibt an, man werde wiederum auch seine Erkennungsmaßnahmen fortlaufend verbessern, um solche schwarzen Schafe ins Visier zu nehmen.
Es sei wichtig, dass Websitebetreiber und Autoren die Kontrolle über ihre Inhalte behalten, anstatt, dass Dritte damit unverhohlen Geld verdienen, ohne die Content-Ersteller zu entschädigen.
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.
Einige der Bots verhalten sich so aggressiv mit teilweise mehreren Abrufen pro Sekunde, dass dies schon fast einem DoS-Angriff nahekommt. Bei meiner Website werden auch überwiegend uralte Inhalte abgerufen, die nicht im statischen WordPress-Cache gespeichert sind und daher ständig neue PHP-Abfragen erzeugen. So entstehen selbst spät in der Nacht teilweise hohe Serverlasten – inbesondere wenn gleich mehrere Bots gleichzeitig auf der Seite sind. Die meisten Bots habe ich über die robots.txt geblockt und einzelne zusätzlich über Deny-Einträge in der .htaccess.
Finde ich nicht schlimm, wer etwas ins Internet stellt muss damit rechnen. Kommt gleich wie in der Google Suche gezeigt werden.
Sollte Cloudflare dagegen vorgehen, würde ich als OpenAI, bessere AIs entwickeln.
Und wieder jemand, der Internet nicht kapiert hat.
Wie denkst du, sollen OpenAI – und andre – bessere AIs entwickeln, wenn Schluss ist, mit kostenlos Daten sammeln? Jetzt denk mal ganz scharf nach.
Kostenloses Daten sammeln ohne Berücksichtigung der Urheberrechte nennt man auch Diebstahl….
Und bei der Google Suche ist das kein Problem weil…?
Die Suche ist ein Adressbuch und verweist auf ein Angebot. Mittels robots.txt kann man die Suchmaschine steuern und Sachen ausschließen.
Eine AI zieht sich alle verfügbaren Daten herunter um eigene Angebote daraus zu generieren.
Google verlinkt, AI downloadet.
Unterschiedlicher können AI Anwendungen und eine Suchmaschine nicht sein.
Abgesehen davon, dass Google seine Suchtreffer nicht weiterverwurstet, sondern auf die Quelle verlinkt, kannst du Google schon immer per robots.txt ausschließen.
Verständlich ist es schon. Nichts frisst Performance und Strom derzeit so stark wie die ganzen AI Anwendungen.
Google und Microsoft haben ja schon verkündet ihre CO2 Ziele nicht halten zu können und statt dessen deutlich mehr rauszublasen.
Kurz gesagt, das kostet Cloudflare richtig Geld.