Caschys Blog

Open Source Software LanguageTool findet 1 Million Textfehler in der Wikipedia

Ihr kennt das, Ihr lest einen Text online und findet Fehler. Grammatikalisch, in der Rechtschreibung oder stilistisch. Auch wir kennen das, oftmals passiert es und man fragt sich hinterher, wie das passieren konnte. Ist halt so. Die Open Source Software LanguageTool (erhältlich als Online Tool, für Open Office, als Firefox Plugin oder als Standalone-Programm) untersuchte nun Artikel der deutschsprachigen Wikipedia und stellte fest, dass über eine Million Einträge mit Fehlern behaftet sind.

Die Zahlen stammen aus einer Hochrechnung, tatsächlich wurden von den 1,6 Millionen deutschsprachigen Artikeln 1000 zufällig gewählt und mit der Software geprüft. Von den gefundenen Fehlern wurden im Anschluss 300 von Lektor Julian von Heyl (korrekturen.de) manuell geprüft. So kam heraus, dass 3 Wikipedia-Artikel im Schnitt 2 Fehler enthalten, die automatisch gefunden werden können.

Interessant: LanguageTool deckte hierbei auch Wikipedia-spezifische Probleme auf: So sind Ausdrücke wie „seit kurzem“ für eine Enzyklopädie zu unspezifisch und sollten durch eine genaue Zeitangabe ersetzt werden. Generell findet LanguageTool Fehler, indem es den Text nach bestimmten Fehlermustern durchsucht. In deutschen Texten erkennt die Software mehr als 1700 Fehlermuster.

Das LanguageTool-Team hat ein Werkzeug entwickelt, mit dem alle Neueinträge und Änderungen der Wikipedia automatisch überprüft werden können. Dieses wird auf der diesjährigen FOSDEM-Konferenz (1. und 2. Februar) vorgestellt.

Aktuelle Beiträge

Die mobile Version verlassen