ChatGPT erlernt das Hören, Sehen und Sprechen

ChatGPT kann laut OpenAI mittlerweile hören, sehen und sogar sprechen. So führt man eine neue Oberfläche ein, über die ihr mit dem KI-Bot leichter einen verbalen Dialog führen könnt. Nutzen können dies „innerhalb der kommenden zwei Wochen“ Nutzer von ChatGPT Plus und ChatGPT Enterprise. Die Voice-Funktion erreicht bald Android und iOS, ihr müsst aber in den Einstellungen ein Opt-in durchführen. Auf allen Plattformen werdet ihr ChatGPT zudem Bilder zeigen können.

Fünf verschiedene Stimmen sollen euch laut OpenAI zur Wahl stehen. Als Basis dient ein neues Text-to-Speech-Modell. Um euch ein möglichst natürliches Erlebnis darzubieten, habe man laut OpenAI für die Daten-Basis mit professionellen Sprechern kooperiert. Whisper kann zudem gesprochene Konversationen für euch in Text übertragen.

Was ebenfalls neu ist: Ihr könnt ChatGPT Bilder zeigen und Fragen dazu stellen. In der mobilen App könnt ihr auch bestimme Bildbereiche markieren, falls ihr darüber sprechen mögt – z. B. den defekten Teil eines Fahrrads. Vorsichtig sei man wiederum an die Erkennung von Menschen herangegangen: Laut OpenAI habe man technische Maßnahmen ergriffen, damit sich ChatGPT nicht zu weit aus dem Fenster lehnt, wenn es um Personen auf Fotos geht.

OpenAI weist auch darauf hin, dass ChatGPT aktuell nur in Englisch sehr gute Ergebnisse erziele und in einigen anderen Sprachen noch schlecht dastehe. Daher empfiehlt man die Verwendung der Voice-Funktionen aktuell nur auf Englisch. Nachdem man die neuen Features für Plus- und Enterprise-User verteilt hat, will man später auch andere Benutzergruppen bedenken – inklusive der Entwickler.

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf ge­lan­gt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir ei­ne kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Avatar-Foto

Hauptberuflich hilfsbereiter Technik-, Games- und Serien-Geek. Nebenbei Doc in Medienpädagogik und Möchtegern-Schriftsteller. Hofft heimlich eines Tages als Ghostbuster sein Geld zu verdienen oder zumindest das erste Proton Pack der Welt zu testen. Mit geheimniskrämerischem Konto auch bei Facebook zu finden.

Neueste Beiträge

Mit dem Absenden eines Kommentars stimmst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

14 Kommentare

  1. sehr schön. Stimmprobenabgabe. dann graduelle Angleichung… wollte schon immer Mal mit mir selber sprechen 🙂

  2. Fuck yes, lange drauf gewartet. Da will OpenAI Google’s Gemini den Wind aus den Segeln nehmen.

  3. Skynet nimmt Form an! 😀

  4. Unter iOS kann man schon lange über Siri mit ChatGPT reden und Antworten in Siris Stimme vorgelesen bekommen.
    Klappt wunderbar und man kann die Prompts anpassen, die Historie im Dateisystem speichern, sodass ChatGPT sich auch frühere Anfragen merkt.

  5. Gut, Sprechen und Hören ist jetzt keine Raketentechnik, eher eine sinnvolle Ergänzung. Was fehlt, ist die Verbindung zum Internet. Wurde ja angeblich gekappt, weil ein paar durchgeknallte Rechteverwerter daran etwas auszusetzen hatten. Bard hingegen kann es, dafür ist Bard doof wie Brot.

    • „Durchgeknallte Rechteverwerter“: Sorry,aber da zieht jemand alles ab, was er im Internet findet und macht damit Kohle. Ich würde das als Contentanbieter auch nicht lustig finden, so spannend ich auch ChatGPT finde.

      • „da zieht jemand alles ab, was er im Internet findet und macht damit Kohle“ Aha … und warum pappst du das Zeug ans schwarze Brett, wenn es keiner lesen soll?

        • Das Internet ist eher wie diese kostenlosen Zeitungen im Briefkasten. Etwas Content und viel Werbung. Kriegt jeder und der Content ist auch nur dafür da, dass man die Werbung liest.

    • Ich habe bei beiden Schwächen entdeckt. GPT kann reimen, Bard nicht wirklich. Dafür hat GPT Blödsinn erzählt auf die Frage: „Wer reitet so spät durch Nacht“. Sogar auf Nachfrage meinte er, daß stammt aus einem Liederbuch mit unbekanntem Autor. Erst als ich gefragt havbe, ob das nicht der Erlkönig ist, hat er es erkannt. Bard hat auf die Frage nach Gemüse mit N, u.a. Nuss und Nektarine gebannt. Erst auf Nachfrage hat er zugegeben, dass es kein Gemüse ist.

  6. Gibt eine Softtware „Be my Eyes“ die ursprünglich entwickelt wurde um blinden und sehbehinderten per App sehende Assistenz über video-Chat zur Verfügung zu stellen um z. B. alltagsgegenstände zu beschreiben oder den Ahrplan an einer Haltestelle vorzulesen. Im englischsprachigen Raum gibt es inzwischen als Beta „Be my AI“ wo ein AI-Bot die Rolle des menschlichen Assistenten übernimmt. habe Podcasts aus der amerikanischen blind community gehört und die leistungen sind beachtlich . Hinsichtlich Gesichtserkennung müßte es hier Ausnahmen für unseren personenkreis geben: jeder sehjende mensch kann z. B. einen „Promi“ auf der Straße erkennen – das gleiche sollte durch Apps wie „Seeing AI“ oder andere auf KI basierende Apps mit Umwelterkennung für Menschen mit Einschränkungen möglich sein. Ist schließlich ein maschineller Ersatz für eine verloren gegangene oder bisher nicht vorhandene Sinnesfunktion und sollte nicht durch „überempfindlichkeit“ datenschutzbesorgter leute eingeschränkt werden. Leider berichten Nutzer aus den USA inzwischen daß in „vorauseilendem Gehorsam“ die Beta-funktion in „Be my AI“ inzwischen die Anallyse von Bildern, die Gesichter enthalten, ableehnt. Wäre fatal wenn uns dadurch möglichkeiten die KI bietet verlorengingen. Ich hoffe z. B. auf eine Art „elektronischen Führhund“ den es vielleicht in Bälde gibt … und der mir auch noch aus der zeitung vorlesen kann – grins. was ein echter „Wuffi“ ja nicht kann.

    • Danke für diesen Kommentar. An diesen Aspekt habe ich bisher noch nie gedacht. Vor allem „live“ Gesichter Erkennung ist sicher etwas mit dem ich mich sehr unwohl fühlen würde. Allerdings zeigst du einen wichtigen und relevanten Punkt auf.

    • Es wäre ja durchaus eine anlernbare Gesichts-KI mit lokaler Datenbank denkbar. Damit könnte man ein paar tausend Gesichter speichern, um Freunde, Bekannte und Promis wieder zu erkennen und gleichzeitig zu wenig und zu lokal um anderweitig damit was anzufangen.

    • Ich liebe den Datenschutz und manchmal geht er mir nicht weit genug. Ich bin aber auch extrem offen für genau solche wichtigen Errungenschaften, die wir mittlerweile haben und nutzen können (Siehe ebenso die Google Glass Brille mit KI für Sehbehinderte).
      Das Problem ist leider nur de Schindluder, der getrieben wird und weswegen ich den Datenschutz so liebe. Wenn ich einen Sehbehinderten in meiner Freundesliste hätte würde ich ihm mein Gesicht zur Speicherung geben, aber leider auch mit einem unguten Gefühl.

Es werden alle Kommentare moderiert. Lies auch bitte unsere Kommentarregeln:

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor. In jedes Thema Politik einbringen ist nicht erwünscht.

Du willst nichts verpassen?

Du hast die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.