OpenAI SWE-Lancer: Neuer Benchmark für KI-Modelle im Software-Engineering
Künstliche Intelligenz wird immer besser darin, Code zu schreiben und Software-Entwicklern unter die Arme zu greifen. Doch wie gut sind die KI-Modelle wirklich? Diese Frage soll der neue „SWE-Lancer“-Benchmark beantworten, der nun von OpenAI vorgestellt wurde.
Der Benchmark basiert auf über 1.400 realen Freelance-Projekten von der Plattform Upwork, die zusammen einen Auftragswert von einer Million US-Dollar repräsentieren. Das Besondere: Es handelt sich nicht um künstlich erzeugte Aufgaben, sondern um echte Projekte aus der Praxis – von kleinen Bug-Fixes für 50 Dollar bis hin zu komplexen Feature-Implementierungen im Wert von 32.000 Dollar.
SWE-Lancer testet KI-Modelle auf zwei Arten: Zum einen müssen sie konkrete Programmieraufgaben lösen, zum anderen werden sie in der Rolle eines Engineering Managers getestet, wo sie zwischen verschiedenen technischen Implementierungsvorschlägen wählen müssen. Die Qualität der Lösungen wird dann durch erfahrene Software-Entwickler und automatisierte Tests überprüft.
Die ersten Ergebnisse sind hierbei durchaus interessant: Selbst die fortschrittlichsten KI-Modelle können derzeit noch nicht die Mehrheit der gestellten Aufgaben zufriedenstellend lösen. Das zeigt, dass wir noch weit davon entfernt sind, dass KIs Entwickler komplett ersetzen können.
# | Vorschau | Produkt | Preis | |
---|---|---|---|---|
1 |
![]() |
Dickies, Herren, Dickies Portland-Hemd, ROT, L | 48,95 EUR | Bei Amazon ansehen |
2 |
![]() |
Carhartt Herren Bartlett Jacket Arbeitsoberkleidung, Dunkelbraun, S | 260,00 EUR | Bei Amazon ansehen |
3 |
![]() |
Dickies Herren 874F Hose, schwarz, 34W / 30L |
59,99 EUR |
Bei Amazon ansehen |
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.
Ich nutzte Opera ich glaube seit v8, wo man eine Art online Schnitzeljagd für einen Lizenzschlüssel machen konnte. Das hat Spaß gemacht und ich fand opera lange gut und es war mein Favorit bis vorkurzem. Ich meine v12 war eine sehr gute Version. Nun bin ich relativ anspruchslos und hänge bei Safari, nach Umstieg auf Mac
Irgendwie bin ich in der News verrutscht
thema verfehlt