Mistral OCR will neue Maßstäbe setzen
Mixstral hat sein neues KI-Tool vorgestellt. Die neue Technologie zur optischen Zeichenerkennung unterscheidet sich grundlegend von bisherigen Lösungen, so das Unternehmen. Sie verarbeitet nicht nur Text, sondern erfasst und versteht auch Medien, Tabellen und mathematische Formeln in Dokumenten. Das System nimmt Bilder und PDF-Dateien als Eingabe und extrahiert deren Inhalte in einer strukturierten Form. In Benchmark-Tests erreicht die Software eine Genauigkeit von 94,89 Prozent – deutlich mehr als konkurrierende Systeme wie Google Document AI oder Azure OCR. Besonders bei der Erkennung mathematischer Ausdrücke und Tabellen liegt Mistral OCR vorn.
Eine Besonderheit ist die mehrsprachige Ausrichtung. Das System verarbeitet Tausende verschiedener Schriftarten und Sprachen. Tests belegen hohe Erkennungsraten für Russisch, Chinesisch, Hindi und viele weitere Sprachen. Die Verarbeitungsgeschwindigkeit liegt bei bis zu 2.000 Seiten pro Minute auf einem einzelnen Rechnerknoten. Die Einsatzmöglichkeiten sind vielfältig. Forschungseinrichtungen nutzen Mistral OCR zur Digitalisierung wissenschaftlicher Arbeiten. Kulturinstitutionen bewahren damit historische Dokumente. Unternehmen optimieren ihren Kundenservice durch bessere Dokumentenverarbeitung.
Die Nutzung erfolgt über eine API-Schnittstelle zum Preis von 1.000 Seiten pro Dollar (etwa 0,92 Euro). Bei der Stapelverarbeitung verdoppelt sich die Seitenzahl pro Dollar. Für Organisationen mit hohen Sicherheitsanforderungen besteht die Möglichkeit, das System in der eigenen Infrastruktur zu betreiben. Die Technologie ist laut Mistral bereits bei Millionen Nutzern im Einsatz. Interessierte können Mistral OCR kostenlos über den Dienst „le Chat“ testen. Für Entwickler steht die API-Plattform „la Plateforme“ zur Verfügung. Das Unternehmen arbeitet kontinuierlich an Verbesserungen und plant weitere Updates in den kommenden Wochen.
.
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Ungeprüft sage ich mal: Sinnvoller Einsatz von Ki. Ich halte Ki immer noch für eine Büchse der Pandora, wo der Mensch und nicht die Technologie das Problem ist. Ich stelle mir Außerirdische vor, sie mal feststellen: „Die haben doch tatsächlich in ihr Trinkwasser gepisst, die Atemlust verpestet, die Nahrung vergiftet und sich dann noch selbst eine Konkurrenz geschaffen. Wie blöd kann man sein?!?“
Hallo Gidiano,
eine nicht nur rein zeichenorientierte sondern auch kontextsensitive OCR erträume ich mir schon lange.
Ja, seit den ersten Versuchen mit Rekognita unter MS-Dos, einem Flachbettscanner und einer Hardware-Sprachausgabe (ja extern über eine serielle Schnittstelle mit einer in ein eProm gegossenen TTS) hat sich viel getan.
Aber gerade mit einer sinnvollen Umsetzung von Tabelllen, Säulen- oder tortengrafiken und anderen grafischen Darstellungen von Tendenzen, Anteiligen Größen und so weiter kommen herkömmliche Systeme gar nicht zurecht. Für Menschen die darauf angewiesen sind, daß optische Informationen in Sprache oder Blindenschrift umgesetzt werden wäre solch eine KI-unterstützte Inhaltserkennung ein riesiger Fortschritt.
Auch im Bereich der Objekterkennung und automatisierter Bildbeschreibung tut sich seit der einsatzfähigkeit von KI einiges – aber auch da hoffe ich auf viel viel mehr – z. B. automatisierte Erstellung von Audio-Deskriptionen für Bewegtbilder, also filme und Videos oder auch eine Echtzeit-Gesichtserkennung. Immerhin kann ein sehender Mensch auf der Straße ja auch ihm bekannte Gesichter wiedererkennen, das sollte dann auch mit KI-gestützten Assistenzsystemen möglich werden. Für solche Hilfsmittel müßten dann auch Sonderregelungen geschaffen werden, die eine Gesichtserkennung auch im öffentlichen Raum erlauben – einen Führhund darf man ja schließlich auch in Bereiche mitnehmen, wo sonst Hunde draußen bleiben müssen.
Über den Link kann man es leider nicht testen, da man einen Account zum hochladen von Dateien benötigt.
Man kann einen neuen Account erstellen.
„Mixstral hat sein neues KI-Tool vorgestellt.“, so fängt es an. Muss man die kennen? Anscheinend ein Onlinedienst, keine Software. Hm.
Mistral AI ist ein französisches Softwareunternehmen, das sich mit künstlicher Intelligenz (KI, englisch Artificial Intelligence, kurz AI) beschäftigt und unter den europäischen Unternehmen der Branche führend im Bereich Großer Sprachmodelle ist. Mistral AI entwickelt vor allem Open-Source-Sprachmodelle. Die Modelle können natürlich auch lokal installiert und genutzt werden. Siehe auch im Artikel, wo deutlich drin steht, dass es in der eigenen Infrastruktur betrieben werden kann.
schau mal hier:
https://m.youtube.com/watch?v=xVVrnQu5XCo
Eine Integration in paperless ngx wäre toll 🙂