Claude Opus 4.5: Neues Topmodell mit Fokus auf Code und Agenten

Anthropic schickt ein neues Flaggschiff ins Rennen: Claude Opus 4.5. Das Modell sitzt im Bereich „High-End“ und richtet sich vor allem an Leute, die viel mit Code, Automatisierung und Werkzeugen wie Tabellen, Präsentationen und Browser arbeiten. Laut den internen Messungen liegt Opus 4.5 bei Benchmarks rund um Softwareentwicklung vorn, etwa bei SWE-bench Verified und der multilingualen Variante mit mehreren Programmiersprachen. Opus 4.5 hängt nicht nur in der eigenen App, sondern auch in der API und auf den drei großen Cloud-Plattformen. Wer über die API arbeitet, greift über das Modelllabel „claude-opus-4-5-20251101“ zu. Berechnet wird nach Tokens: 5 US?Dollar (ca. 4,65?€) für eine Million Input-Tokens, 25 US?Dollar (ca. 23,25?€) für eine Million Output-Tokens. Damit landet das Modell im Premium-Segment, fällt im Vergleich zu früheren Opus-Generationen aber etwas günstiger aus, gemessen an der gebotenen Leistung.

In internen Tests, die sonst für Performance-Engineering-Kandidaten genutzt werden, hat Claude Opus 4.5 innerhalb eines Zeitlimits von zwei Stunden besser abgeschnitten als jeder Mensch, der sich bisher an dieser Aufgabe versucht hat. Der Test deckt natürlich nur einen Teil dessen ab, was im Job wichtig ist, liefert aber eine Aussage zur reinen Problemlösung unter Druck. Auf Benchmarks quer durch Vision, Logik, Mathematik und mehr liegt Opus 4.5 durchweg oben oder sehr weit vorne. Auf SWE-bench Multilingual führt das Modell in 7 von 8 Programmiersprachen. Für den ganzen Benchmark-Zinnober könnt ihr gerne mal in die Ankündigung schauen.

 

Und sonst so? In der normalen Claude-App sind lange Chats jetzt weniger problematisch. Statt irgendwann an die Kontext-Grenze zu knallen, fasst Opus 4.5 vergangene Teile der Unterhaltung automatisch zusammen, damit der Faden nicht abreißt. Claude für Chrome, also die Browser-Integration mit Zugriff auf mehrere Tabs, steht jetzt allen Max-Nutzern zur Verfügung. Claude für Excel, im Oktober angekündigt, wird auf Max-, Team- und Enterprise-Konten im Beta-Status ausgeweitet. Gerade in Kombination mit Opus 4.5 soll das bei Tabellen und größeren Datensätzen punkten, wenn es um Auswertungen, Formeln oder wiederkehrende Aufgaben geht.

Bei den Limits dreht Anthropic ebenfalls an den Stellschrauben. Spezielle Caps nur für Opus-Nutzung in den Apps fallen weg, für Max- und Team-Premium-Konten steigen die allgemeinen Obergrenzen. Unterm Strich landet ungefähr die gleiche Menge an Opus-4.5-Tokens wie vorher bei Sonnet, wodurch sich Opus 4.5 eher als Standardwerkzeug für tägliche Arbeit anbietet und nicht nur als gelegentliche „High-End-Option“. Klar ist aber auch: Wenn ein zukünftiges Modell Opus 4.5 ablöst, werden die Limits wieder angepasst.

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf ge­lan­gt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir ei­ne kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Avatar-Foto

Hallo, ich bin Carsten! Ich bin gelernter IT-Systemelektroniker und habe das Blog 2005 gegründet. Baujahr 1977, Dortmunder im Norden, BVB-Fan und Vater eines Sohnes. Auch zu finden bei X, Threads, Facebook, LinkedIn und Instagram.

Neueste Beiträge

Mit dem Absenden eines Kommentars stimmst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

9 Kommentare

  1. Software Engineering bei 80,9%.

    Was passiert bei 100%? Wird es einen Programmierer vollständig ersetzen können?

    • Das bedeutet nur das es 80% der Testaufgaben korrekt gelöst hat.

      Aber man kann natürlich fragen wie viel Prozent ein durchschnittlicher Programmierer bei den selben Aufgaben schaffen würden.

      • Das Grundproblem dieser Gespräche ist die falsche Dualität.

        Worauf es wirklich hinaus läuft: wie viel produktiver sind KI und Programmierer zusammen.

        Es gibt nur wenige Bereiche in denen KI nicht als Feigenblatt für klassischen Stellenabbau gedient hat sondern wirklich Arbeitsplätze ersetzt hat, wenn Forscher genauer hinschauen.

        Der Normalfall wird auch in Zukunft bleiben, dass Mitarbeiter mit KI produktiver werden.
        Ob die Firma das nutzt um dir Arbeitszeit zu reduzieren oder Auftragsspitzen anzufangen oder tatsächlich langfristig weniger Leute einzustellen bestimmen Markt und Strategie. Da uns langfristig aber sowieso überall in Industrieländern der Nachwuchs ausgeht ist das eher ein feature und kein bug von KI.

        • Je nach Aufgabe bin ich mit der KI viel produktiver.
          Bei manchen Sachen, wie z.B. Refactoring von Legacy-Code oder GUI-Programmirung kann ich mit GPT in 2 Stunden locker schaffen, wofür ich 2 Tage gebraucht hätte.
          2 Stunden mit der KI fleißig arbeiten, 1 Tag aufschreiben – ich würde sagen, in dem Fall bin ich 2x produktiver, als ohne KI.

          • Jo und das kann heißen die Firma benutzt das Tempo um pro Jahr 10x soviele Updates oder Produkte raus zu bringen und damit im Wettbewerb erfolgreich zu sein. Zumindest war das der Trend der letzten Jahrzehnte und solange es in einer Branche auch nur einen Konkurrenten gibt der das so macht müssen es alle so machen wenn sie den Anschluss nicht verlieren wollen.

            Es ist eine Milchmädchenrechnung und höchstens ein Traum der BWLer, dass die Produktivität durch KI einfach in Stelleneinsparung übersetzt werden kann. Das wird es geben wie mit jeder neuen Technologie aber die Szenarien die herum geistern sind bei genauer Betrachtung lächerlich. Es geht langfristig um vielleicht 15% der Arbeitnehmer, so der Mittelwert jüngerer Studien ungefähr. Das ist immer noch weniger als die Lücke die durch den demografischen Wandel entstehen könnte.

            • So einfach ist es nicht, aber mithilfe von KI lässt sich der eine oder andere Junior-Entwickler einsparen bzw. können die Einstiegslöhne niedrig gehalten werden.

          • Gleiche Erfahrung bei mir. Bei uns in der Firma zum Beispiel Scripten für Fachanwendung bei Tabellen sind das jedesmal so zwischen 3000-5000 Zeilen Javascript, hat früher zwei, drei Tage gedauert, mit Claude geht das in zwei, drei Stunden. Das ist schon brutal, wie das durch eine KI beschleunigt wird.

            Und das ist ja erst der Anfang. Der Zuwachs an Produktivität mit einer KI ist einfach Fakt. Claude ist vielleicht seit einem Jahr wirklich stabil, wie das in fünf Jahren aussieht, will ich mir gar nicht vorstellen.

    • Bei den Benchmarks muss man super aufpassen. Teilweise sind die Modelle mit genau diesen Problemen aus den Benchmark Tests (und der richtigen Lösung/den richtigen Lösungen dazu) gefüttert.
      Im Berufsalltag der Softwareentwicklung kann ich dir aus Erfahrung sagen, dass die Qualität aller großen aktuellen KI-Modelle stark nachlässt, wenn du in einen Bereich vordringst, der noch nicht das 100ste mal zuvor auf Stackoverflow durchgekaut wurde.
      Für Kleinigkeiten, zum Nachschlagen, für die Ideensammlung oder auch für simple Apps ist es top. Sobald es komplexer, größer wird oder gar in Richtung Industriesoftware oder Cobol (Versicherungen und Bankens Liebling) geht, lässt die Qualität drastisch nach.

      Aus diesem Grund sehe ich hier auch echt eine krasse Blase am Kapitalmarkt, weil die Modelle auf der Grundlage, auf der sie stehen niemals den enormen Investitionen und Renditeerwartungen der Investoren gerecht werden können. 🙂

      • Man soll nicht mit den reinen KI-Modellen arbeiten, sondern mit KI-Agenten, die diese Modelle benutzen. Dann scannt der Agent zuerst deine Code-Base, fetcht ggf. die Dokumentation aus dem Internet und schon geht’s besser.

Es werden alle Kommentare moderiert. Lies auch bitte unsere Kommentarregeln:

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor. In jedes Thema Politik einbringen ist nicht erwünscht. Es besteht kein Recht auf die Veröffentlichung eines Kommentars.

Du willst nichts verpassen?

Du hast die Möglichkeit, den Kommentar-Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.