OpenAI SWE-Lancer: Neuer Benchmark für KI-Modelle im Software-Engineering

Künstliche Intelligenz wird immer besser darin, Code zu schreiben und Software-Entwicklern unter die Arme zu greifen. Doch wie gut sind die KI-Modelle wirklich? Diese Frage soll der neue „SWE-Lancer“-Benchmark beantworten, der nun von OpenAI vorgestellt wurde.

Der Benchmark basiert auf über 1.400 realen Freelance-Projekten von der Plattform Upwork, die zusammen einen Auftragswert von einer Million US-Dollar repräsentieren. Das Besondere: Es handelt sich nicht um künstlich erzeugte Aufgaben, sondern um echte Projekte aus der Praxis – von kleinen Bug-Fixes für 50 Dollar bis hin zu komplexen Feature-Implementierungen im Wert von 32.000 Dollar.

SWE-Lancer testet KI-Modelle auf zwei Arten: Zum einen müssen sie konkrete Programmieraufgaben lösen, zum anderen werden sie in der Rolle eines Engineering Managers getestet, wo sie zwischen verschiedenen technischen Implementierungsvorschlägen wählen müssen. Die Qualität der Lösungen wird dann durch erfahrene Software-Entwickler und automatisierte Tests überprüft.

Die ersten Ergebnisse sind hierbei durchaus interessant: Selbst die fortschrittlichsten KI-Modelle können derzeit noch nicht die Mehrheit der gestellten Aufgaben zufriedenstellend lösen. Das zeigt, dass wir noch weit davon entfernt sind, dass KIs Entwickler komplett ersetzen können.

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf ge­lan­gt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir ei­ne kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Avatar-Foto

Nordlicht, Ehemann und Vater. Technik-verliebt und lebt fürs Bloggen. Außerdem: Mail: benjamin@caschys.blog / Mastodon

Neueste Beiträge

Mit dem Absenden eines Kommentars stimmst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

3 Kommentare

  1. Ich nutzte Opera ich glaube seit v8, wo man eine Art online Schnitzeljagd für einen Lizenzschlüssel machen konnte. Das hat Spaß gemacht und ich fand opera lange gut und es war mein Favorit bis vorkurzem. Ich meine v12 war eine sehr gute Version. Nun bin ich relativ anspruchslos und hänge bei Safari, nach Umstieg auf Mac

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Es werden alle Kommentare moderiert. Lies auch bitte unsere Kommentarregeln:

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor. In jedes Thema Politik einbringen ist nicht erwünscht.

Du willst nichts verpassen?

Du hast die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.