OpenAI stellt neue KI-Modelle o3 und o4-mini vor
Na, blickt ihr noch bei den ganzen KI-Modellen durch? Falls ja, hier kommen die nächsten. OpenAI hat heute zwei neue Modelle seiner o-Serie vorgestellt, die das Unternehmen als seine bisher intelligentesten KI-Systeme bezeichnet. Die neuen Modelle o3 und o4-mini wurden darauf trainiert, vor der Antwortgenerierung länger nachzudenken und verschiedene Werkzeuge intelligent zu kombinieren. Zu diesen Werkzeugen gehören Websuche, Python-basierte Datenanalyse, Bildverarbeitung und sogar die Generierung von Bildern.
Besonders interessant ist die Fähigkeit der Modelle, selbstständig zu entscheiden, wann und wie sie diese Werkzeuge einsetzen. Die Antworten werden typischerweise in unter einer Minute generiert, auch bei komplexeren Problemstellungen. Dies markiert einen wichtigen Schritt in Richtung eines agentenbasierten ChatGPT, das Aufgaben eigenständig ausführen kann, so das Unternehmen.
- roborock DuoRoller-Bürste Saug- und Wischroboter mit extremre Saugkraft von 5500 Pa. Die doppelten...
Das Flaggschiff-Modell o3 setzt angeblich neue Maßstäbe in Bereichen wie Programmierung, Mathematik, Naturwissenschaften und visueller Wahrnehmung. In Tests schnitt es bei verschiedenen Benchmarks wie Codeforces, SWE-bench und MMMU besonders gut ab. Externe Experten bestätigen laut OpenAI, dass o3 im Vergleich zum Vorgänger o1 etwa 20 Prozent weniger schwerwiegende Fehler bei komplexen Aufgaben macht. Besondere Stärken zeigt das Modell in der Programmierung, im Consulting-Bereich und bei kreativen Aufgabenstellungen.
Das kompaktere o4-mini wurde für schnelle und kosteneffiziente Verarbeitung optimiert. Trotz seiner geringeren Größe erreicht es beeindruckende Leistungen, insbesondere bei mathematischen, programmiertechnischen und visuellen Aufgaben. Beim AIME 2025 Benchmark erreichte es mit Zugriff auf einen Python-Interpreter eine Genauigkeit von 99,5 Prozent. Das Modell übertrifft seinen Vorgänger o3-mini auch in nicht-MINT-Bereichen und der Datenwissenschaft.
ChatGPT Plus, Pro und Team-Nutzer werden ab heute o3, o4-mini und o4-mini-high im Modell-Selector sehen, die o1, o3-mini und o3-mini-high ersetzen. ChatGPT Enterprise und Edu-Nutzer werden in einer Woche Zugang erhalten. Kostenlose Nutzer können o4-mini ausprobieren, indem sie ‚Think‘ im Composer auswählen, bevor sie ihre Anfrage absenden. Die Rate-Limits für alle Pläne bleiben unverändert im Vergleich zu den vorherigen Modellen. Interessierte können sich hier einlesen, da gibts dann auch die Benchmark-Charts etc.
- MICROSOFT 365 FAMILY | bis zu 6TB Cloudspeicher, erweiterte Sicherheit für deine Daten und Geräte sowie...
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Ich habe lange Zeit den use case für mich vermisst in den LLMs. Mittlerweile nutze ich Perplexity Pro und neuerdings auch die Google Search Ai für alltägliche Suchanfragen und Zusammenfassungen zu Themen. Es gibt mir an vielen Punkten schonmal eine gute Richtung für weitere Recherchen. Vor allem wenn man den eigentlichen Suchbegriff nicht kennt, aber das gesuchte Beschreiben kann, ist das ein echter Mehrwert für mich. Ob da jetzt viel, wenig oder mittel viel phantasiert wird von dem LLM sei mal dahingestellt. Nicht jede Recherche ist optimal, aber in einem x-beliebigen Forum steht zu der gleichen Frage auch ganz viel Mist.
Gerade Perplexity Pro mit der Quellenangabe, macht den Faktencheck aber schonmal deutlich einfacher.
TLDR: neuere und bessere Modelle? Her damit!
In einem anderen Forum, würdest du auf dem Scheiterhaufen brennen für diese Aussage….
Ich benutze keine Search Engines mehr und nur noch ChatGPT/Perplexity. Wie du sagst, wenn etwas spanisch vorkommt, oder einfach der Wunsch nach Überprüfung besteht, die Quellen werden geliefert.
o4-Mini-High isch beschte
Na, blickt ihr noch bei den ganzen KI-Modellen durch?
– nein, langsam hört das auf 😉
kein Mensch weiss noch was die ganzen Versionen bedeuten und was das stärkste sein soll
o3 sollte stärker als o1 sein.
o4-mini soll stärker als o3-mini sein.
Mini ist viel schneller als nicht-mini.
Nicht-mini ist schlauer als mini.
Ich fand o1 schon beeindruckend.
Gib den Promt ein und du weißt Bescheid: „Zeige mir die Unterschiede zwischen den einzelnen LLM von ChatGPT“. Wird dann kurz und knapp aber sehr verständlich mit einer Tabelle erklärt.
Ähm…
• GPT-3.5 ist gut für einfache Aufgaben und schnelle Antworten.
• GPT-4 / turbo liefern bessere Sprache, Logik und Kontextverständnis.
• GPT-4o ist der neue Alleskönner – vor allem wenn du auch Bild- oder Spracheingaben verarbeiten willst.
Abo-Typ | Verfügbares Modell
Kostenlos | GPT-3.5 oder GPT-4o (ab April 2025)
ChatGPT Plus (20$ / Monat) | GPT-4-turbo (und bald GPT-4o in allen Modi)
Der kennt die neuen Modelle nicht mal.
… das musst du natürlich mit einem Modell machen, das ein Websearch Tool hat. Einfachster Weg wäre Perplexity.
Alles wo O1, O3 mini und sogar Gemini 2.5 gefailed haben, lösen O3 und O4 mini in one shot.
Wenn man sich das Aider LLM Leaderboard anschaut, scheint Gemini 2.5 Pro von den Kosten und der Performance weiterhin das Maß aller Dinge zu sein: https://aider.chat/docs/leaderboards/
Ich muss sagen nachdem mir Sonnet 3.7 manchmal zu wild wird, den Instruktionen zu wenig folgt und Tokens ohne Ende verballert, war ich die Tage sehr positiv überrascht, wie gut Gemini 2.5 Pro dann doch funktioniert.
Ganz zu schweigen von der Deep Search Option mit 2.5 Pro, was OpenAI bei allen Tests bisher in den Schatten stellte.
Demnach verstehe ich nun, warum OpenAI mit o3 und o4-mini nachlegen musste und nicht bis GPT-5 abwarten konnte, wo alles harmonisiert werden soll. Aber ich finde es auch sehr positiv, dass Google sich zurück in den Ring gekämpft hat und kann es kaum erwarten, bis die Pixel Watch, Android Auto, die Nest Hubs usw. mit Gemini anstatt Google Assistant arbeiten. Ich denke taktisch war es klug für Google, erst ein ordentliches Modell anzubieten, bevor man in den Massenmarkt einsteigt.
Ich nutze über OpenRouter was für den jeweiligen Task am besten funktioniert. Hier hatte ich mit o3-mini damals auch schon Erfolge, wo ich mit 2.5 Pro bei Gemini nicht weiterkam. Wenn es jedoch um HTML, JS, CSS usw. geht, scheint Gemini in Punkto Ästhetik usw. direkt vom ersten Entwurf mehr korrekt umzusetzen. Die o-Serie strahlt bei komplexeren Algorithmen, Backend Lösungen usw.
Strategisch tut sich OpenAI aus meiner Sicht mit o3, o4-mini, GPT-4.1 usw. aber aus meiner Sicht keinen Gefallen. Das sie sich das überhaupt bisher erlauben konnten, liegt wohl nur daran, da hier noch die Menschen bereit sind, viel zu verzeihen und entsprechenden Experimentieraufwand nicht direkt scheuen. Aber je mehr Anbieter es gibt, die mithalten, desto weniger wird dieses offene experimentieren verziehen. Der CPO macht in den Vorstellungsvideos ein extrem sympathischen Eindruck, aber hier scheint es nicht ganz zu passen.
Ist es dann günstiger mit OpenRouter, als ein Plus-Abo direkt bei OpenAI?