Open Source Software LanguageTool findet 1 Million Textfehler in der Wikipedia

27. Januar 2014 Kategorie: Internet, geschrieben von:

Ihr kennt das, Ihr lest einen Text online und findet Fehler. Grammatikalisch, in der Rechtschreibung oder stilistisch. Auch wir kennen das, oftmals passiert es und man fragt sich hinterher, wie das passieren konnte. Ist halt so. Die Open Source Software LanguageTool (erhältlich als Online Tool, für Open Office, als Firefox Plugin oder als Standalone-Programm) untersuchte nun Artikel der deutschsprachigen Wikipedia und stellte fest, dass über eine Million Einträge mit Fehlern behaftet sind.

LanguageTool

Die Zahlen stammen aus einer Hochrechnung, tatsächlich wurden von den 1,6 Millionen deutschsprachigen Artikeln 1000 zufällig gewählt und mit der Software geprüft. Von den gefundenen Fehlern wurden im Anschluss 300 von Lektor Julian von Heyl (korrekturen.de) manuell geprüft. So kam heraus, dass 3 Wikipedia-Artikel im Schnitt 2 Fehler enthalten, die automatisch gefunden werden können.

Interessant: LanguageTool deckte hierbei auch Wikipedia-spezifische Probleme auf: So sind Ausdrücke wie „seit kurzem“ für eine Enzyklopädie zu unspezifisch und sollten durch eine genaue Zeitangabe ersetzt werden. Generell findet LanguageTool Fehler, indem es den Text nach bestimmten Fehlermustern durchsucht. In deutschen Texten erkennt die Software mehr als 1700 Fehlermuster.

Das LanguageTool-Team hat ein Werkzeug entwickelt, mit dem alle Neueinträge und Änderungen der Wikipedia automatisch überprüft werden können. Dieses wird auf der diesjährigen FOSDEM-Konferenz (1. und 2. Februar) vorgestellt.


Du entscheidest mit! Wir suchen das Smartphone des Jahres 2017! Jetzt abstimmen!

 

Über den Autor:

Technik-Freund und App-Fan. In den späten 70ern des letzten Jahrtausends geboren und somit viele technische Fortschritte live miterlebt. Vater der weltbesten Tochter (wie wohl jeder Vater) und Immer-Noch-Nicht-Ehemann der besten Frau der Welt. Außerdem zu finden bei Twitter (privater Account mit nicht immer sinnbehafteten Inhalten) und Instagram. PayPal-Kaffeespende an den Autor.

Sascha hat bereits 9407 Artikel geschrieben.