Mistral OCR 3: Neues Modell für Texterkennung und Dokumentenverarbeitung

Mistral hat mit OCR 3 ein neues Modell zur Texterkennung veröffentlicht, das den Vorgänger in Sachen Genauigkeit und Effizienz ablösen soll. Der Fokus liegt dabei auf einer verbesserten Erfassung von Handschriften, komplexen Tabellen und gescannten Dokumenten. Laut den Entwicklern erreicht das neue Modell eine Erfolgsquote von 74 Prozent gegenüber Mistral OCR 2, wenn es um die Verarbeitung von Formularen und schwierigen Layouts geht. Die Demos sind schon recht beeindruckend.
Das Modell ist darauf ausgelegt, Text und eingebettete Bilder aus Dokumenten zu extrahieren und in Markdown auszugeben. Eine Besonderheit ist die Rekonstruktion von Tabellen. OCR 3 erkennt Header, verbundene Zellen und Spaltenstrukturen und gibt diese als HTML-Tags aus, damit die ursprüngliche Formatierung erhalten bleibt. Auch Handschriften, egal ob kursiv oder als Notiz auf einem gedruckten Formular, sollen zuverlässiger erkannt werden.
Wer das ausprobieren möchte, findet im Mistral AI Studio nun den Document AI Playground. Dort lassen sich PDFs oder Bilder per Drag-and-Drop hochladen und direkt in sauberen Text oder strukturiertes JSON umwandeln. Entwickler können das Modell unter der Kennung mistral-ocr-2512 über die API ansprechen.
Preislich positioniert sich Mistral aggressiv. Für 1.000 Seiten werden 2 Dollar fällig. Nutzt man die Batch-API, gibt es einen Rabatt von 50 Prozent, was den Preis auf 1 Dollar pro 1.000 Seiten drückt. Das Modell ist ab sofort verfügbar und vollständig abwärtskompatibel zum Vorgänger. Einsatzgebiete sind vor allem die Digitalisierung von Archiven, das Auslesen von Rechnungen oder die Verarbeitung technischer Berichte.
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.
So sehr mich die Technik und deren Möglichkeiten begeistert, so erschreckt bin ich, was alles an Input in diese Modelle geladen werden kann und wird. Datenschutz scheint sehr häufig keine Rolle mehr zu spielen und ich bin auf die Auswirkungen in den nächsten Jahren gespannt.