OpenAI SWE-Lancer: Neuer Benchmark für KI-Modelle im Software-Engineering

von Benjamin Mamerow Feb. 20, 2025 | 3 Kommentare

Künstliche Intelligenz wird immer besser darin, Code zu schreiben und Software-Entwicklern unter die Arme zu greifen. Doch wie gut sind die KI-Modelle wirklich? Diese Frage soll der neue „SWE-Lancer“-Benchmark beantworten, der nun von OpenAI vorgestellt wurde.

Der Benchmark basiert auf über 1.400 realen Freelance-Projekten von der Plattform Upwork, die zusammen einen Auftragswert von einer Million US-Dollar repräsentieren. Das Besondere: Es handelt sich nicht um künstlich erzeugte Aufgaben, sondern um echte Projekte aus der Praxis – von kleinen Bug-Fixes für 50 Dollar bis hin zu komplexen Feature-Implementierungen im Wert von 32.000 Dollar.

SWE-Lancer testet KI-Modelle auf zwei Arten: Zum einen müssen sie konkrete Programmieraufgaben lösen, zum anderen werden sie in der Rolle eines Engineering Managers getestet, wo sie zwischen verschiedenen technischen Implementierungsvorschlägen wählen müssen. Die Qualität der Lösungen wird dann durch erfahrene Software-Entwickler und automatisierte Tests überprüft.

Die ersten Ergebnisse sind hierbei durchaus interessant: Selbst die fortschrittlichsten KI-Modelle können derzeit noch nicht die Mehrheit der gestellten Aufgaben zufriedenstellend lösen. Das zeigt, dass wir noch weit davon entfernt sind, dass KIs Entwickler komplett ersetzen können.

#	Produkt	Preis
1	Dickies, Herren, Dickies Portland-Hemd, ROT, L	48,95 EUR	Bei Amazon ansehen
2	Carhartt Herren Bartlett Jacket Arbeitsoberkleidung, Dunkelbraun, S	260,00 EUR	Bei Amazon ansehen
3	Dickies Herren 874F Hose, schwarz, 34W / 30L	59,99 EUR	Bei Amazon ansehen

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Benjamin Mamerow

Nordlicht, Ehemann und Vater. Technik-verliebt und lebt fürs Bloggen. Außerdem: Mail: benjamin@caschys.blog / Mastodon

Neueste Beiträge

Mit dem Absenden eines Kommentars stimmst du unserer Datenschutzerklärung und der Speicherung von dir angegebener, personenbezogener Daten zu.

Seb says:
20. Februar 2025 um 12:48 Uhr

Ich nutzte Opera ich glaube seit v8, wo man eine Art online Schnitzeljagd für einen Lizenzschlüssel machen konnte. Das hat Spaß gemacht und ich fand opera lange gut und es war mein Favorit bis vorkurzem. Ich meine v12 war eine sehr gute Version. Nun bin ich relativ anspruchslos und hänge bei Safari, nach Umstieg auf Mac

Antworten
- Seb says:
  20. Februar 2025 um 13:25 Uhr
  
  Irgendwie bin ich in der News verrutscht
  
  Antworten
- el_jock says:
  20. Februar 2025 um 13:29 Uhr
  
  thema verfehlt
  
  Antworten

Schreibe einen Kommentar Antworten abbrechen

Es werden alle Kommentare moderiert. Lies auch bitte unsere Kommentarregeln:

Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor. In jedes Thema Politik einbringen ist nicht erwünscht.

Du willst nichts verpassen?

Du hast die Möglichkeit, den Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.

OpenAI SWE-Lancer: Neuer Benchmark für KI-Modelle im Software-Engineering

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Neueste Beiträge

3 Kommentare

Schreibe einen Kommentar Antworten abbrechen

Umfrage des Monats

Diese Woche beliebt