OpenAIs GPT-4: YouTube-Videos sollen zum Training benutzt worden sein

OpenAI - Logo des Unternehmens

OpenAI – Logo des Unternehmens

OpenAI hat im letzten Jahr durch DALL-E und ChatGPT einen ordentlichen Sprung gemacht. Mittlerweile ist die KI auch in Microsoft-Produkte und mehr eingezogen und es scheint noch kein Ende in Sicht. Das Problem für all die Unternehmen, die mit KI ihr Geld verdienen ist, dass man immer mehr Daten benötigt, um die Modelle entsprechend trainieren zu können. Eine Kollegin vom Wall Street Journal hat die CTO von OpenAI in einem wirklich hervorragenden Interview gefragt, womit man Sora trainiert hat. Sie konnte es nicht ordentlich beantworten.

Die New York Times berichtet nun, dass OpenAI ein Model zum Transkribieren entwickelt hat, das auf den Namen Whisper hört. Man habe damit über 1 Million YouTube-Videos transkribiert und diese zum Training von ChatGPT benutzt. Der Präsident von OpenAI Greg Brockman war wohl persönlich in die Auswahl involviert. Auch Google ist wohl auf das Scraping aufmerksam geworden, das gegen die AGB von YouTube verstößt. Aber auch Google selbst habe wohl für Gemini Daten des Video-Dienstes benutzt, jedoch die Einwilligung der Ersteller erhalten.

Generell scheinen die Großen nicht wirklich viel von Urheberrecht zu halten, wenn es um das Training von KI-Modellen geht.

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf ge­lan­gt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir ei­ne kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Avatar-Foto

Hauptberuflich im SAP-Geschäft tätig und treibt gerne Menschen an. Behauptet von sich den Spagat zwischen Familie, Arbeit und dem Interesse für Gadgets und Co. zu meistern. Hat ein Faible für Technik im Allgemeinen. Auch zu finden bei Twitter, Instagram, XING und Linkedin, oder via Mail

Neueste Beiträge

Mit dem Absenden eines Kommentars stimmst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

20 Kommentare

  1. Gruselige Zeit. Kein Plan wo das hinführt, aber auf alle Ersteller zu schei*** und in Zukunft alles mit KI generieren zu wollen, kann es doch auch nicht sein. Mann muss nicht immer auch Wachstum, Fortschitt und Geld pochen, sondern auch mal die sozialen Aspekte betrachten. Die Menschheit ist einfach oft so fehlgeleitet.

    Und wer erstellt überhaupt noch Wissen, Kreationen und Inhalte, wenn die KI eh alles klaut und direkt anzeigt. Wer besucht noch Websites, wenn die KI diese zusammenfasst. Und wo kommen dann, irgendwann einmal die Inhalte der KI her, wenn niemand mehr selbst Inhalte erstellt. Ist dann alles eine Halluzination? Irrsinn.

    • Dann wandert der Fokus wieder mehr Richtung analoges Leben. Sind doch gute Aussichten 🙂

    • Bisher gibt es keine Anhaltspunkte dafür, dass das Scraping von Texten und Bildern eine Urheberrechtsverletzung darstellt. Scraping ist also zumindest aus urheberrechtlicher Sicht, soweit ich das verstanden habe, völlig unproblematisch.

      Andererseits begeht man mit einer KI, die ein urheberrechtlich geschütztes Werk reproduziert, unabhängig davon, wie das Bild zustande gekommen ist, natürlich wie jeder andere auch eine gewöhnliche Urheberrechtsverletzung.

  2. Jeder Werbeblocker verstößt gegen die AGB von Youtube – und Werbeblocker sind eine gute Sache. Für den Einzelnen, der sie nutzt, aber auch für die Gesellschaft als Ganzes.

    Insofern… Kp, das ist irgendwie ganz okay für mich, dass das gegen die AGB von Youtube verstößt. 😀

    • Nein, Werbeblocker sind Anti-Sozial. Wegen der Nutzung müssen andere Kunden mehr Werbung ertragen, damit die Kosten gedeckt werden.

      • Nein. Im 21. Jahrhundert muss niemand Werbung ertragen.

        • Richtig

        • Und wie soll sich dann zB Youtube finanzieren, wenn niemand Werbung vorgesetzt bekommen soll? Wäre aus deiner Sicht ein ausschließlich kostenpflichtiges Angebot auf Youtube besser für die Gesellschaft @Jannik ?

          • Wer heute auf die Youtube-Werbung hereinfällt, für den ist Youtube auch heute schon nicht kostenlos. Aber abgesehen davon möchte ich deine Frage nicht unbeantwortet lassen:

            Du gehst davon aus, dass (1) alle Nutzer die Werbung ausschalten. Das ist sehr unwahrscheinlich … und überhaupt nur denkbar, wenn man der Meinung ist, dass jeder Werbung schlecht findet. Ich sehe das so, insofern fine for me. Aber siehst du das auch so?

            Außerdem gehst du davon aus, dass es (2) neben der Werbefinanzierung nur die Paywall gibt und Google diese auch wählen würde. Das ist bei weitem nicht die einzige Lösung und gerade bei einem so großen Megakonzern wie Google läuft sehr viel über Querfinanzierung. Das ist zum Beispiel auch der Grund, warum WhatsApp kostenlos und werbefrei ist: Es wird querfinanziert.

            Aber natürlich sind auch ganz andere Finanzierungsmodelle denkbar. Zum Beispiel durch Spenden, institutionelle Förderer, den Uploader (klassisches Hosting eben). … Es gibt auch andere technische Lösungen, die dazu beitragen, die Kosten der Videodistribution zu splitten. Wenn dich das wirklich interessiert, schau dir PeerTube an. Das hat ein bisschen was vom Torrent-Modell.

            Aber wenn wir (1) und (2) mal annehmen und uns dann die Frage stellen: Ist ein [für die Nutzer] ausschließlich kostenpflichtiges Angebot besser für die Gesellschaft? Dann glaube ich schon, dass es Vor- und Nachteile hätte … und die Vorteile überwiegen.

            Natürlich könnte dann nicht mehr jeder so niedrigschwellig an die Videos kommen. Das gilt insbesondere für Kinder & Jugendliche, aber auch für von Armut betroffene Menschen weltweit. Auch wäre (anders als jetzt) eine Art Identifikation jedes einzelnen Nutzers notwendig. Das Ganze hätte also eine nicht zu unterschätzende Überwachungsdimension.

            Auf der anderen Seite würde das Videostreaming-Ökosystem absehbar pluralistischer, es könnte Innovationen vorantreiben und vielleicht ganz neue, weniger zentralisierte und kontrollierbare Plattformen hervorbringen. Auf ein Jahrzehnt der Konsolidierung von Videoplattformen könnte eine Zeit der Erneuerung folgen. Gleichzeitig hätte man für wenig Geld Zugang zum größten Videoarchiv der Welt – es ginge also nichts verloren.

            Also tl;dr: Ich glaube, ein Pay2Play-Youtube hätte auch viele Chancen.

      • Bedanke Dich bei der Werbeindustrie die es schlicht übertrieben hat.
        Das ist nun mal jetzt die Konsequenz, dass immer mehr Nutzer Werbeblocker verwenden weil ohne diese ein sicheres und entspanntes surfen im Internet nicht mehr möglich ist.

  3. Martin Fischer says:

    Muss man beim Trainieren von KI das Urheberrecht beachten?
    Muss ich beim Auswendig lernen einer Textpassage aus eine Zeitschrift das Urheberrecht beachten?

    • Wenn du das auswendig gerlente dann anderen schriftlich zur Verfügung stellst ohne Quellenangabe dann ja.

      • Das hat aber eben genau nichts mit den auswendig lernen zu tun. Selbst wenn man zufällig ein bereits existierendes, urheberrechtlich geschütztes Werk reproduziert, ohne dieses Ursprungswerk zu kennen oder jemals gesehen zu haben, ist es trotzdem ein Urheberrechtsverstoß.

        Es geht da einfach nicht um den Prozess des Zustandekommens.

  4. Martin Fischer says:

    Wie man z.B. am Beispielvideo „Historical footage of California during the gold rush“ sieht bekommt man hier eine Realität vorgegaukelt, die es vielleicht so nie gab. Das Video sieht aus wie eine Aufnahme, ist aber natürlich eine Erfindung. Aber gerade für Jüngere erweckt das den Eindruck, als wäre das wirklich genau so gewesen. Man könnte ein Video erstellen „Seeschlacht zwischen Deutschland und Schweiz am Bodensee“ und 80% der Jugendlichen würden das glauben.

  5. ChatGPT tut mir Leid. Sich soviele Stunden von sinnlosen Sachen anzuschauen würde ich nicht mal einer KI zumuten

    • Ich hab eher Panik, dass manch ein Mist von resthirnbefreiten Youtubern nun in das Trainingsmaterial eingeflossen ist.
      So viele Negativeinträge kann ich gar nicht in meine Syntax eingeben, um deren Schrott herauszufiltern.
      Danke, OpenAI, für nichts.


      Ein Glück, dass es in meinem Youtube-Kanal keine Moderation gibt.

  6. Dann ist das halt so.
    Es steht außer Frage, dass die aktuellen KI Anwendungen erst der Beginn einer absolut disruptiven neuen Technologie sind. Diese sollte nicht wegen eventueller Urheberrechtsbedenken ausgebremst werden. Unser vollkommen aus der Ruder gelaufenes Urheberrecht hat in der Vergangenheit bereits genügend Schaden angerichtet.

    • Doch, das sollte sie, denn es geht hier vor allem um einen Milliarden-Markt, in dem sich diverse Tech-Firmen ungeniert mit dem geistigen Eigentum Dritter die Taschen voll machen.

  7. Passenderweise ist der Zugang zu dem New York Times Artikel auch wieder eingeschränkt und nur mit Account nutzbar.. Das mit Whisper klingt so, als wüsste man das erst seit heute, aber das gibt es doch schon eine ganze Zeit. Ich benutze das schon um Videos zu transkribieren und zu übersetzen, zwar „nur“ ins Englische, aber mit einer sehr guten Quote. Alles kostenlos dank Github und vortrainierten Paketen auf einer aktuellen Nvidia-Karte mit ausreichend CUDA-Cores.

  8. Der Artikel hat den Tenor, als sei hier etwas unrechtes passiert. Die mehrheitliche Rechtsauffassung ist, dass man für die Nutzung von Material für KI-Training eben keine Urheberrechte beachten muss – in den USA aufgrund der FairUse-Regelung im Urheberrecht. Für das Training von GPT wurden entsprechend auch keine solche Vereinbarungen getroffen. Wie das im konkreten Fall entschieden wird und ob hier evtl. doch YouTube Nutzungsbedingungen gelten, dürfte spannend werden.
    Aber uns sollte klar sein: Sollte sich die Position durchsetzen, dass man Material fürs Training lizenzieren muss, gibt es KI-Modelle nur noch von sehr wenigen Anbietern mit sehr, sehr viel Geld. Ein Oligopol oder gar Quasi-Monopol. Und man beschränkt sich dadurch auch selbst gegenüber Staaten wie China, denen das egal ist und die einfach mit allem trainieren werden, was sie bekommen können.

Es werden alle Kommentare moderiert. Lies auch bitte unsere Kommentarregeln:

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor. In jedes Thema Politik einbringen ist nicht erwünscht.

Du willst nichts verpassen?

Du hast die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.