Open Source Software LanguageTool findet 1 Million Textfehler in der Wikipedia

Ihr kennt das, Ihr lest einen Text online und findet Fehler. Grammatikalisch, in der Rechtschreibung oder stilistisch. Auch wir kennen das, oftmals passiert es und man fragt sich hinterher, wie das passieren konnte. Ist halt so. Die Open Source Software LanguageTool (erhältlich als Online Tool, für Open Office, als Firefox Plugin oder als Standalone-Programm) untersuchte nun Artikel der deutschsprachigen Wikipedia und stellte fest, dass über eine Million Einträge mit Fehlern behaftet sind.

LanguageTool

Die Zahlen stammen aus einer Hochrechnung, tatsächlich wurden von den 1,6 Millionen deutschsprachigen Artikeln 1000 zufällig gewählt und mit der Software geprüft. Von den gefundenen Fehlern wurden im Anschluss 300 von Lektor Julian von Heyl (korrekturen.de) manuell geprüft. So kam heraus, dass 3 Wikipedia-Artikel im Schnitt 2 Fehler enthalten, die automatisch gefunden werden können.

Interessant: LanguageTool deckte hierbei auch Wikipedia-spezifische Probleme auf: So sind Ausdrücke wie „seit kurzem“ für eine Enzyklopädie zu unspezifisch und sollten durch eine genaue Zeitangabe ersetzt werden. Generell findet LanguageTool Fehler, indem es den Text nach bestimmten Fehlermustern durchsucht. In deutschen Texten erkennt die Software mehr als 1700 Fehlermuster.

Das LanguageTool-Team hat ein Werkzeug entwickelt, mit dem alle Neueinträge und Änderungen der Wikipedia automatisch überprüft werden können. Dieses wird auf der diesjährigen FOSDEM-Konferenz (1. und 2. Februar) vorgestellt.

Gefällt dir der Artikel? Dann teile ihn mit deinen Freunden.

Technik-Freund und App-Fan. In den späten 70ern des letzten Jahrtausends geboren und somit viele technische Fortschritte live miterlebt. Vater der weltbesten Tochter (wie wohl jeder Vater) und Immer-Noch-Nicht-Ehemann der besten Frau der Welt. Außerdem zu finden bei Twitter (privater Account mit nicht immer sinnbehafteten Inhalten) und Instagram. PayPal-Kaffeespende an den Autor.

15 Kommentare

  1. Angesichts der schieren Textmengen und häufigen Überarbeitungen verschiedener Artikel durch unterschiedliche Autoren, seh ich diese Fehlerquote als nicht sonderlich dramatisch an. Gibt gewiss genug Seiten, bei denen sich ähnliche Fehlerquoten auch bei Inhalten von professionellen Textern finden liese, die nicht ‚ehrenamtlich‘ der Arbeit nachgehen.

  2. Eigentlich beheben schon seit Jahren Bots solche Fehler. Zumindest war es als ich noch aktiv war. Aber es werden eben auch laufend neue Fehler hineineditiert. Vermutlich kommen die Bots lange nicht mehr hinterher.

  3. Gibt’s für diesen Artikel eine Quellenangabe?

  4. Sascha Ostermaier says:

    @Chris: Mein Email-Postfach, da geb ich Dir aber keinen Zugriff drauf.

  5. Das Tool sollten sich so einige Nachrichtensender mal zulegen.

  6. Absicht? 😀 „Von den gefunden Fehlern“

  7. Sascha Ostermaier says:

    @mnemo: Haha, nice one. War natürlich keine Absicht, aber bestätigt schön meine Einleitung. 😉

  8. Damit dürfte die Wikipedia – bezogen auf die Textmenge – deutlich fehlerfreier sein als die meisten Blogs, inklusive diesem hier. 😉

  9. @ Jo:
    Das ist selbst bei Tageszeitungen nicht mehr anders. Ungenaue Ausdruckweise, logische Brüche, Copy-and-paste-Fehler, Rechtschreibfehler usw. häufen sich immer mehr. Dafür wird wohl der Kostendruck verantwortlich sein; fähige Leute werden eingespart, weil man sie nicht mehr bezahlen kann.

  10. Dankeschön für die Links im Artikel – das ist leider nicht selbstverständlich.

  11. Grammatik ist ja nicht jedermann Sache. Da werden, Kommata falsch, gesetzt und irgendwie von ganz anderen Dingen ist da manchmal schon die rede. Vierzehn, fünfzehn Sinne nichts macht Schiff im Hafen zu kaufen beim Immobilienmakler. Kaktus. Krumm Damm Baum IATA Schnürsenkel im Hotel. Früh standen die Bauernhauer an der Klammermauer nachts morgens frühzeitig dauert sechzig achtzig Stunden. Dieser Text ist fehlerfrei.

  12. @Renate: „Dieser Text ist fehlerfrei.“ … hmmm Da stimme ich nicht zu. „die rede“ falsch gemacht du hast 😉

  13. Fehlerteufel-Bekämpfer vor. Das korrigieren ist ja für jeden möglich.

  14. Namenlos, weil Cookies gelöscht... says:

    Ich finde so eine Software gut und nützlich, doch was nutzt sie, wenn die Leute sowieso nicht lesen können?

  15. Wikipedia ist eh Dreck.
    Ich bin nicht so Deutsch-anal und hänge mich nicht an Schreibfehlern auf, wenn der Inhalt stimmt und richtig recherchiert ist, aber in den letzten Jahren finde ich auf Wikipedia soviele Artikel die einfach komplett falsche Inhalte und fehlerhaften Quellen haben.

    Viele Artikel sind einseitig verfasst und besonders an Interessen von Gruppen ausgerichtet mit falschen Fakten, ob da nun Zeichensetzungsfehler/Grammatikfehler oder falsche Gross/Kleinschreibung vorliegt….ist nur für Analfixierten Psychos wichtig.

    Es ist Wikipedia (Internet = viele Menschen = viele dumm = egal ob Ungebildet oder Promoviert)! Mir persönlich ist wichtiger, dass heute viele Kids & Teens in Deutschland
    denken, dass Aids heilbar ist und Kondome uncool sind. Da sind mir Schreibfehler auf Wikipedia total egal!