Benchmark-Voodoo: Dieser Beitrag erreicht 1337 Punkte
Für viele technisch interessierte Menschen sind Benchmarks interessant. Und es gibt auch Bereiche, in denen sie Sinn ergeben. Nämlich dann, wenn ein immer gleiches Szenario unter festgelegten Kriterien zur verfügung steht um Ding X zu testen. Das große Problem ist dann immer gegeben, wenn da andere Dinger mit reinspielen in Sachen Software oder auch Subjektivität. Benchmarks gibt es seit gefühlten 200 Jahren und Hersteller haben schon immer versucht, diese für sich zu nutzen. So schön kann ich „bescheißen“ umschreiben.
Das war früher mit Grafik-Benchmarks so, da wurden schon Treiber auf Benchmarks optimiert und es wird heute noch gemacht. Ich verweise jetzt nicht auf die ganzen Smartphone-Hersteller, die diesen Weg eingeschlagen haben, ihr erinnert euch sicher noch an die Berichterstattung. Ich will nicht alles verteufeln, das schrieb ich bereits.
Wenn eine CPU oder GPU in Aufgabe XY etwas leistet, dann kann man dies sicher auf Referenzgeräten messen. Dann kann ich sagen: Das Gerät in dieser Ausbaustufe ab Werk hat in Aufgabe A 95.000 Punkte erreicht. Wenn ich jetzt aber daher komme und auf meinem vollgeballerten Smartphone mit 52 Apps im Hintergrund was teste, dann kann der Spaß schon anders aussehen.
Ist wie bei Akku-Tests. Da stellen sich dann irgendwelche Leute hin und verkaufen das als Rocket Science. Ich kann hier auch was aufbauen und sagen „Joa, in meinem Labortest kam das Gerät auf Wert X“. Das kann jeder Trottel machen und schreiben. Das Schlimme dabei: Viele Menschen glauben es einfach. Weil der das sagt, muss es stimmen. ISSO!
Beispiel Akkutest: Eine auf die Minute genaue Angabe ist unmöglich, da so unfassbar viele Szenarien wie WLAN oder mobiler Netzzugang, Signalstärke, automatische Displayhelligkeit, Außenbedingungen, Art der Anwendung und ähnliches mit in die Laufzeit des Akkus reinspielen. Das macht viel aus. Und mit viel meine ich keine kleine Minutenangabe bei Akkulaufzeiten. Wer da seinen Benchmark als die einzige Wahrheit verkaufen will, der hat nicht mehr alle Latten am Zaun.
Neben den nicht konstanten Prüf-Szenarien gibt es noch das Thema Subjektivität. Das gibt es bei Kameras zum Beispiel. Es gibt da den für viele Hersteller „Quasi-Standard“ DxO Mark. Die haben sich mit ihren Tests eine schicke Nische geschaffen. Werden von Herstellern hofiert und genießen das Vertrauen zahreicher Leser. Unbestritten: Die machen eine echt gute Arbeit. Wie das Ganze dann aber unter dem Strich verkauft wird, ist völliger Quatsch. Oder anders. Wie viele Menschen das interpretieren ist Quatsch.
Auch hier kann ich ins Labor gehen oder eines aufbauen und Smartphone-Kameras testen. Farbwiedergabe, Low Light und so weiter. Ihr kennt das. Aber: Das ist meistens was, was ihr NIEMALS in eurem Leben nutzen werdet. Also die meisten von uns. Standardeinstellung für die meisten und es gibt sicherlich welche, die knipsen im Pro-Modus. Und auch die Ergebnisse des Pro-Modus könnt ihr nicht vergleichen. Völlige Kack-Ergebnisse kann ich sehen, logo. Aber bei Flaggschiffen… da sind die Unterschiede teils so minimal beim Knipsen von Fotos im Standardmodus.
Und die Kamera im Standardmodus wird doch nicht einmal alleine bewertet. Da spielt Video mit rein und diese und jene Einstellung. Und am Ende steht ein Wert, der euch sagt, wie gut die Kamera sein soll. Sind aber 90 Punkte schlechter als 95, wenn die 90er-Kamera in der Disziplin, die du dauern nutzt, besser ist als die 95er? Ich könnte da noch fünf Absätze drüber schreiben, warum diese Werte als blanke Zahlen gelesen und interpretiert völliger Scheiß sind. Genau wie Berichterstattungen, die Konsolen, Computer, Smartphones und Co mit X von 5 Sternen bewerten. Derart komplexes in eine 5-Sterne-Wertung? Das kann mir auch keiner erklären. Es sei denn, man verweist auf ein Gefühl, eine Subjektivität.
Benchmarks und Bewertungen sind natürlich nicht von Grund aus Blödsinn. Es gibt Tendenzen, die man mit konkreten Beispielen und Mehrwert unterfüttern kann. Bei Low-Light-Fotos kann man beispielsweise sagen, dass das totaler Schrott ist – oder eben ein tolles Foto. Das sieht man. Aber es ist halt alles sehr komplex und vieles ist Subjektivität. Und dennoch ist das vielen wichtig und ich gehe das gerne auch in Testberichten durch. Wenn einer einen Wert eines Benchmarks haben will, ist das ok für mich.
Nur ich gebe nichts drauf und sage den Leuten auch, dass die nicht so viel drauf geben sollen. Wenn ich ein Smartphone in die Hand bekomme, welches beim Gaming-Benchmark derbe abrockt, aber dessen System-Oberfläche schon laggy ist…ernsthaft, dann kann man den Müll gleich in die Tonne treten. Zumindest ich würde gerne. Kommt halt immer auf die Präferenz des Nutzers an.
Und man sollte auch aufhören, den Leuten mit reinen Benchmarkwerten ohne Mehrwertinfos auf den Sack zu gehen. Fiktives Gespräch: „Meine Smartphone-Kamera ist viel besser als die deine, denn im XYZ-Benchmark hat die 98 Punkte und deine nur 95“. „Ja, trotzdem machst du scheiß Fotos, weil du mit der Kiste nicht umgehen kannst. Und weil deine Kamera in der Kategorie, die du zu 99% nutzt, nachweislich schlechter ist als die meine.“. Peng. Ihr wisst sicherlich, worauf ich hinaus will.
In diesem Sinne: Legt nicht so viel Wert auf Zahlen, die eng beieinander liegen und die aus dem Test extrem komplexer Dinge zugrunde liegen sollen. Oder Sternebewertungen. Zahlen alleine sagen nichts aus, die Verpackung um die Zahl herum muss gut unterfüttert sein.
Der Autor Carsten Knobloch bewertet diesen Artikel mit 4,2 von 5 Punkten.
Super geschrieben. Danke für diese offenen Worte und deine Einschätzung zur Alltagstauglichkeit von Benchmarks (insbesondere das mit den „Scheiss Fotos“).
Gebe mal mindestens 4,5 (5)
Also ich hab hier sicherlich nicht mehr den allerneuesten Rechner, aber ich komme bei diesem Artikel auf locker 4,8 von 5 Punkten
Schließe mich an, sehr gut geschrieben! Endlich mal eine offene Meinung zu den vielen Ranglisten diverser Tester bei denen schon seit Jahren immer wieder dieselben Marken an den 1. Plätzen stehen.
Auf meinem iPad Pro 9,7“ erreicht dieser Bericht 4,9 (5,0) Punkten,
liegt wohl daran das dieser auf Mobile Geräte Optimiert wurde. 😉
Bäääämmmm
Super geschrieben.
Noch viel extremer finde ich das ganze im Bereich wo es um Subjektivität geht. IMDB und Konsorten zum Beispiel kann man meines Erachtens nach voll in die Tonne treten, weil da ein Score so absolut garnichts darüber aussagt, wie ich einen Film dann am Ende finde, und wenn der noch so viele Sterne hat.
Insofern wünsch ich euch noch nen schönen 5/7 Restsamstag 🙂
Auf meinem Medion Gaming Desktop bekommt dieser Beitrag 4,4 von 5. Insbesondere die vielen Wiederholungen des gleichen Gedankens haben eine bessere Bewertung verhindert.
Es ist natürlich auch zu fragen ob in dieser Umgebung mit weit überwiegend technisch versierten Lesern der Beitrag überhaupt nötig war.
In den Beiträgen zu den Produkten selber werden im Text immer wieder die Benchmarks erwähnt mit dem (sich immer wieder wiederholenden) Zeigefinger, daß das ja nicht viel zu bedeuten hat. Wäre es nicht konsequent die Benchmarks gar nicht in den Texten zu erwähnen sondern einfach (für die, die das interessiert) in oder nach dem Kasten mit den technischen Details weitgehend kommentarlos anzufügen?
Genau deshalb regen mich die Nebelschwaden eines gewissen Unternehmens in Form von „läuft zwei Stunden mehr“ auch so auf. Warum will man uns immer wieder „weniger ist besser“ verkaufen, wenn es für das eigene Nutzerprofil so gar nicht stimmt?
Super geschrieben? „Peng“ „ISSO“ „auf den Sack gehen“ „bescheißen“ „derbe abrockt“ etc.
Wenn man so schreibt, wie man umgangssprachlich spricht, ist das keine „super“ Leistung 😉
2 von 5 Sternen.
Dachte mir doch, dass da nach dem Kommentaren hier über das DxO Ergebnis vom neuen iPhone noch etwas vom Caschy kommt, auch wenn die Aussage anders ausfällt, als ich gedacht habe (jaja ich weiß, aber die Neigung zur Apple Liebe fällt auf, aber das ist sein gutes Recht).
5 von 5 Sternen.
Titel des Artikels sollte lauten „Wir schaffe ich es 3 Sätze auf gefühlt 50 Absätze zu strecken ohne dabei mehr zu sagen“.
Zumal ihr auch nicht müde werdet diese Benchmarks immer und immer wieder selbst zu erwähnen. Einfach konsequent sein und diese ignorieren.
Der Artikel ist nicht unrecht, er ist einfach nur schlecht geschrieben.
Hab letzte Woche Bio Kartoffeln gekauft, die sind in der Kategorie „Schälbarkeit“ mit 92 von 100 Punkten bewertet worden. Mein Nachbar hat Discounter Kartoffeln gekauft, die haben nur eine 90er Schälbarkeit, der Trottel 😀
Ich würde dem Beitrag 34 Punkte mit Senf geben.
Sehr toller Artikel, ich musste wirklich schmunzeln. Man sollte eigentlich meinen, dass Leser dieses Blogs so einen Artikel nicht bräuchten und selber so schlau sind, die Inhalte die du klarstellst bereits zu kennen.. die Kommentare zu DxO usw. haben aber etwas anderes gezeigt. Insofern und auch allgemein ein Klasse Artikel.
Ich würde dem Autor Carsten Knobloch diesen Artikel sogar mit 4,3 von 5 Punkten bewerten.
Also mein altes Notebook zeigt mir bei diesem Artikel eine glatte 4,99 an.
„Zahlen schaffen Vertrauen“ (Marc Uwe Kling)
„Die grössten Kritiker der Elche waren früher selber welche“ (Heinz Erhard)
Bin ja ganz bei dir, dass dieses Zahlen Gehechel albern ist. Dann dann schaue ich einmal Headlines der deutsche Techblogs quer und was sehe ich? Milliamper (als ob das ein brauchbarer Wert zum Ausdauer Vergleich wäre) Geekbench (ohne Worte) und am besten „Screen to body Ratio“ (daran diskutieren dann Leute mit dem Mode Verständnis eines schwäbischen Informatik Professors über „Design“).
Schwierig ^^