Reddit verklagt Perplexity
Reddit zieht vor Gericht. Der Grund: Perplexity soll sich unerlaubt an Reddit-Inhalten bedient haben, um seine KI zu trainieren. Neben Perplexity stehen auch die Scraping-Dienstleister SerpApi, Oxylabs und AWMProxy im Fokus der Klage. Reddit macht dabei eine ziemlich deutliche Ansage und vergleicht die Scraping-Unternehmen mit Bankräubern, die sich nicht direkt am Tresor zu schaffen machen, sondern gleich den Geldtransporter klauen. Perplexity soll mindestens einen dieser Dienste genutzt haben, um an die begehrten Reddit-Daten zu kommen – ohne sich die Mühe zu machen, direkt mit Reddit zu verhandeln.
Interessant ist auch, was im Mai passierte: Reddit schickte Perplexity eine Unterlassungsaufforderung. Die Antwort von Perplexity war ein klares „Wir machen sowas nicht“ und das Versprechen, die robots.txt zu respektieren. Allerdings scheint das nicht zu stimmen, denn die Zahl der Reddit-Zitate stieg danach sogar noch an. Reddit hat angeblich auch Beweise, dass Perplexity angeblich doch Daten zog.
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Muss jetzt keiner verstehen. Einfach genommen ja, die falsche Seite? Openai zahlt dafür.
ChatGPT hat als Quellen auch oft Reddit… Haben die einen Vertrag mit Reddit?
Ja.
https://openai.com/index/openai-and-reddit-partnership/
https://www.heise.de/news/Reddits-KI-Partner-ist-Google-9635742.html
Sicherlich gibt es noch aktuellere Artikel zu diesem Thema…
Offensichtlich zahlt Google für die Daten. Auch Sam Altman ist eng mit Reddit verbunden. Daher liegt es nahe, dass es auch hier Absprachen gibt.
Man kann die ggf. grundlegende Bedeutung nicht überschätzen.
Bisher werden die sogenannten KI Systeme, eigentlich einfach nur statistische Vorhersagen, weitgehend ohne jede Bezahlung oder Einverständnis der Urheber trainiert. Vom Buchautor bis zum Forenuser, alles was irgendwie öffentlich zugänglich ist wird genutzt. Denn die vermeintliche Magie, die Gerhard und Anneliese so beeindrucken, entsteht einfach dadurch, dass durch die Trainingsdaten eine riesige Datenbank entsteht. Hinter Wörtern stecken ja Bedeutungen und wenn mit genug Texten trainiert wurde erkennt die Statistik die Sinnzusammenhänge und paraphrasiert diese. Und das macht die Maschine relativ schnell, was Menschen die das nutzen beeindruckt, denn wir gehen 20 Jahre zur Schule und zur Uni um uns einen guten Grundstock Allgemein- und Fachwissen anzueignen, wobei wir dabei natürlich wesentlich mehr aufnehmen als einfach nur „Trainingsdaten“, wir vergleichen die Leistung der KI damit – fälschlicherweise – und sind deswegen sehr beeindruckt.
Aber nicht Perplexity nimmt einfach alles was Menschen bisher so geschrieben haben, für andere Systeme wie Bild, Ton oder Video die entsprechenden Erzeugnisse aus dem Bereich jeweils. Alle machen das.
Perplexity ist nur besonders darin die Quellen teilweise zu nennen. Das ist alles. Die anderen machen das nicht transparent oder zuverlässig und selbst auf Nachfrage hin werden Quellen scheinbar eher zufällig dazu passend herbei fantasiert oder ganz ausgedacht.
Wenn die Rechtsprechung hier gegen Perplexity ausgeht dann steht das Geschäftsmodell der gesamten KI Branche ggf. in Frage. Die verdienen ja jetzt schon kein Geld, die Börsenbewertungen sind eine Blase und die hunderten Milliarden Investitionen lassen sich kaum jemals wieder reinholen, auch nicht in Jahrzehnten, dazu müssten die Dienstleistungen so teuer werden, dass 1. das Verständnis der Nutzer für KI Fehler rapide sinkt und 2. auch die Rechnung zum Ersatz menschlicher Arbeitnehmer schnell wieder anders aussieht.
Müssten die Anbieter der Systeme jetzt eine Klagewelle aller denkbaren Plattformen, Verlage und Rechteinhaber auf der ganzen Welt fürchten, dann wären sie eigentlich schon latent insolvent. Und müssten sie alle irgendwie abfinden bzw. Lizenzverträge usw. bezahlen, dann wäre KI nicht mehr wirtschaftlich. Ggf. würde aus der Insolvenzmasse dann die damit trainierte Grundlogik herausgelöst werden können und genug kritische Masse für einen Neustart bilden, außer die Gerichte erlauben eine Trennung in der Gestalt nicht. Dann würde jeder der die Gewichte der Modelle übernimmt, die auf den Trainingsdaten basierten, sich die selben rechtlichen Probleme einkaufen. Die Modelle könnten zu toxic waste werden den keiner mehr anrührt.
Es ist erstaunlich wie wenig über diesen Rechtsstreit berichtet wird.
full ack. das ist eine sehr angemessene analyse. im übrigen stellt sich die frage noch einmal stärker dort, wo die anbieter inzwischen auf sonst geschlossene systeme zugreifen. genannt seien hier die business-angebote (bei denen das training zwar )(noch)ausgeschlossen wird) und die agenten-funktionen in browsern wie comet oder atlas. da fallen den anbietern noch einmal ganz andere und neue daten zu und u.u. auch neue urheber*innen werden relevant.
Danke, Eric, guter Beitrag, habe ich so noch gar nicht gesehen
Kann ich als Reddit Nutzer irgendwie angeben, dass ich lieber hätte, sie würden meinen Content nicht Google sondern Perplexity füttern?
Denn im Moment füttern sie damit den Duopolisten fett und das ist ja wirklich sehr schlecht. 😀
Du kannst nur eines machen – nicht Reddit nutzen!
Was will Reddit da eigentlich schützen? Das „geistige Eigentum“ das gar nicht von Reddit selbst, sondern von dessen Usern kommt?
Wenn die Klage sich nur auf die technischen Schwierigkeiten durch diese nervigen Bots richtet verstehe ich das, sonst nicht wirklich.
Naja wenn du in einem Gefängnis irgendwelche Handwerksarbeiten produzierst verkauft das Zeug ja auch deine Gefängnisleitung und nicht etwa du.
Nicht alles, was hinkt, ist ein Vergleich… Zum einen sucht man sich nicht aus, ins Gefängnis zu gehen und dort zu arbeiten. Zum anderen sind physische Waren mal was ganz anderes als Kommentare und Links zu Artikeln auf reddit, an denen reddit exakt 0 mitwirkt. Sie stellen einzig die Plattform, die wiederum weder schützbar noch sonderlich kompliziert ist. Reddit ist einfach nur bekannt.
Mit wie viel Mitwirkung seitens der Gefängnisleitung kann so ein Gefangener denn rechnen? Und die Freiwilligkeit bzgl. großer Technologienplattformen sei mal so da hin gestellt. Reddit mag man noch vermeiden können, aber da haben Firmen auch ihren Support, alsoo.. nicht ohne Einschränkungen.
Mitwirkung des Gefängnisses:
Werkstatteinrichtung, also Maschinen, Prüfungen an Maschinen, Lagerfläche Verbrauchsmaterial, Strom, Wasser, Sanitäreinrichtungen.
Kost und Logis der Arbeiter.
Beschaffung des Grundmaterials.
Planung des Produkts und der Arbeitsgänge.
Vertrieb des Produkts.
Mitwirkung von Reddit: Bereitstellung einer Plattform mit Tausenden an Subreddits and Millionen an Benutzern, die deinen Content lesen und darauf reagieren werden.
Andernfalls kannst du ja in dein Notizbuch schreiben und die Blätter anschließend an der Laterne um die Ecke aufhängen. Oder bei Facebook, Instagram, Google+, Telegram, oder ein eigenes Blog führen wie Caschy.
When Your Content is created with or submitted to the Services, you grant us a worldwide, royalty-free, perpetual, irrevocable, non-exclusive, transferable, and sublicensable license to use, copy, modify, adapt, prepare derivative works of, distribute, store, perform, and display Your Content and any name, username, voice, or likeness provided in connection with Your Content in all media formats and channels now known or later developed anywhere in the world. This license includes the right for us to make Your Content available for syndication, broadcast, distribution, or publication by other companies, organizations, or individuals who partner with Reddit. For example, this license includes the right to use Your Content to train AI and machine learning models, as further described in our Public Content Policy. You also agree that we may remove metadata associated with Your Content, and you irrevocably waive any claims and assertions of moral rights or attribution with respect to Your Content.
Das heißt nicht, dass das in Europa oder Deutschland vor Gericht standhält. Das funktioniert so vielleicht in den USA, weil die eben kaum Persönlichkeitsrechte etc. dort haben. „The land of the free“ heißt eben auch, dass man sich teils frei bedienen kann.
Das Copyright Gesetz hierzulande ist da eindeutig, was ich schreibe gehört mir. Die haben da gar keine Rechte drauf.
Wenn du auf Reddit bist, schließt du per Annahme der AGB einen Vertrag mit Reddit, und mit niemandem sonst! Vielleicht will man als Reddit-Nutzer auch gar nicht, dass die Inhalte anderweitig weiterverarbeitet werden, und schon gar nicht dass eine KI diese Inhalte dann ohne Urheber-Nennung ausspuckt.
Reddit der neue schwarze Raubritter. Glänzen in den letzten Jahren nicht mit positive Nachrichten.
Wie viele andere Auch.
Die Plattform ist absolut geil. Aber die Geschäftsführung eine absolute Katastrophe