ChatGPT: Echtzeit-Videoanalyse kommt für Plus-Nutzer, Santa leiht bis Ende 2024 seine Stimme
OpenAI hat die Echtzeit-Video-Funktionen für ChatGPT veröffentlicht, die vor knapp sieben Monaten in einer Demo vorgestellt wurden. Der „Advanced Voice Mode“, der ChatGPT eine menschenähnliche Konversation ermöglicht, bekommt damit nun auch Augen. Mit der ChatGPT-App können Abonnenten von ChatGPT Plus, Team und Pro ihre Smartphone-Kamera auf Objekte richten und die KI in Echtzeit darauf reagieren lassen, hieß es im Livestream von „12 Days of OpenAI“.
Der Advanced Voice Mode mit Videoanalyse kann auch Bildschirminhalte verstehen, wenn diese per Screen-Sharing geteilt werden. So kann er beispielsweise Menüeinstellungen erklären oder bei Matheaufgaben Hilfestellung geben. Um die Videoanalyse zu nutzen, tippt man in der App auf das Sprachsymbol neben der Chatleiste. Im Sprachmodus aktiviert man dann das Videosymbol unten links, um die Kamera zu starten. Für Screen-Sharing tippt man auf das Drei-Punkte-Menü und wählt „Bildschirm teilen“.
Die Einführung des Advanced Voice Mode mit Videoanalyse beginnt heute und soll laut OpenAI innerhalb der nächsten Woche abgeschlossen sein. Allerdings erhalten nicht alle Nutzer Zugriff: ChatGPT Enterprise und Edu müssen sich bis Januar gedulden, und für Nutzer in der EU, der Schweiz, Island, Norwegen und Liechtenstein gibt es noch keinen Zeitplan. Und ganz nebenbei hat das Unternehmen auch noch angekündigt, dass der Voice Mode ab sofort (und das gilt für alle Nutzer) eine Santa-Stimme bekommt, damit es bis Ende des Jahres noch etwas weihnachtlicher wird. Mit Ablauf des Jahres verschwindet jene Stimmen-Option dann aber auch wieder.
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.
Kennt einer eine Möglichkeit wie man ChatGPT Voice mit GPT API Key verwenden kann?
Randnotiz:
Gestern Nacht wollte ich ChatGPT mal wieder nutzen und um 0:55 Uhr fand einer der längsten Aussetzer (Major Outage) des gesamten OpenAI/ChatGPT Systems statt: ca. 4 Stunden plus.
An der Westküste (Firmensitz) war es 15 Uhr und die Meldungen bei Allestörungen waren maximal 1900 Stk. (bestimmt gekauft).
Hier zum nachlesen:
https://status.openai.com/incidents/ctrsv3lwd797
bzw.:
https://status.openai.com/uptime
bzw.:
https://status.openai.com/
Ich hoffe ja daß solche Echtzeit-Beschreibungen auch für Umgebungen dann irgendwann zu einer Art „sprechendem Blindenführhund“ ausgebaut werden können.
Über einen Knochenleitungs-Kopfhörer oder ein sonstiges offenes System das das Gehör für natürliche Umgebungen nicht verdeckt wäre das sozusagen als „virtueller Begleiter“ schon eine tolle Sachen, warnt vor Hindernissen , macht auf Geschäfte oder bushaltestellen aufmerksam und findet haustüren, Klingeltableaus und assistiert bei der Bedienung.
Hoffe daß hier EU-Regelungen nicht tolle Assistenz-Technologien verhindrn.
Wichtig wäre allerdings daß die Verarbeitung entweder lokal im Gerät erfolgt oder auf Servern im Geltungsbereich der DSGVO.
Will nicht daß meine Umgebungsdaten in den USA oder gar in von Schurkenregiemen regierten Ländern wie Rußland oder China landen.
Die EU verhindert nichts. Sie sorgt nur dafür die Nutzer besser vor sich selbst zu schützen. Wenn ich sehe wie KI direkt an der Bevölkerung und deren Daten in Amerika getestet wird, bin ich sehr sehr froh das es bei uns nicht so ist.