Nvidia stellt Fugatto vor: Generatives KI-Modell für Audio jeglicher Spielarten
Nvidia hat mit Fugatto ein neues KI-Modell vorgestellt, über das sich Audio generieren lässt. Dabei behauptet der Hersteller, das Ergebnis sei deutlich vielseitiger als bestehende Lösungen. Denn Fugatto kann etwa nicht nur Musik oder Stimmen generieren, sondern jede mögliche Kombination aus Musik, Stimmen oder auch Soundeffekten. Man vergleicht das Ergebnis mit einem „Schweizer Taschenmesser für Audio“.
Fugatto steht für „Foundational Generative Audio Transformer Opus 1“. Der Anwender gibt einen Text ein, daraufhin erzeugt das generative KI-Modell die gewünschten Klänge. Es können nicht nur vollkommen neue Audiodateien generiert, sondern auch bestehende modifiziert werden. Als Beispiel nennt Nvidia die Möglichkeit. z. B. aus einem Lied den Gesang oder ein bestimmtes Instrument zu entfernen. Auch ist es möglich, neue Sounds hinzuzufügen oder z. B. den Akzent oder die Emotion in einer Stimme zu beeinflussen.
Als Zielgruppe sieht man auch und vor allem Musiker. Diese könnten über Fugatto z. B. blitzschnell Songideen ausprobieren: Wie hört sich etwa die neue Demo zu einem Musikstück mit Klavier stattdessen mit Akustikgitarre an? Fugatto kann darauf blitzschnell die Antwort liefern. Wäre ein wenig Reverb auf dem Gesang nicht besser? Auch das lässt sich so ohne viel Gefummel schnell eruieren.
Nvidia sieht Fugatto auch als Werkzeug für etwa die Werbeindustrie
Ebenfalls könnte Fugatto für die Werbeindustrie ein mächtiges Werkzeug sein. Als Beispiel nennt Nvidia hier die Chance, Voiceover für Werbekampagnen mit verschiedenen Dialekten, Akzenten, Betonungen und Stimmungen erstellen und testen zu können. So ließen sich angepasste Audio-Spots für verschiedene Regionen und Kontexte in Sekundenschnelle erstellen. Auch Spieleentwickler könnten Fugatto nutzen, um z. B. für unterschiedliche Situationen in Spielen die passende Sprachausgabe parat zu halten. Selbst das Erstellen neuer Audiotracks in Echtzeit sei möglich.
Ebenfalls könne Fugatto Sounds erstellen, die in der Realität unmöglich seien – etwa ein miauendes Saxophon oder eine bellende Trompete. Fugatto kann dabei über die Technik „ComposableART“ Befehle und Aspekte verbinden, die während des Trainings noch separat stehen. Etwa könntet ihr in einem einzigen Prompt nach einem vorgelesenen Text mit trauriger Stimmung und französischem Akzent fragen. Ebenfalls kann das KI-Modell Sounds generieren, die sich mit zunehmender Wiedergabedauer entwickeln – z. B. ein sich nähernder und wieder entfernender Sturm.
So kann Fugatto auch Sounds erstellen, die das Modell nicht vorher für das Training in dieser Art und Weise vorgefunden hat. 2,5 Mrd. Parameter dienen dabei als Basis. Klingt schon recht beeindruckend, mal sehen, wie das Ganze in der Praxis angenommen wird.
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor. In jedes Thema Politik einbringen ist nicht erwünscht.
Du willst nichts verpassen?
Du hast die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.