Wikidata: Vektordatenbank für KI-Modelle wird frei zur Verfügung gestellt

Wikimedia Deutschland veröffentlicht mit dem Embedding-Projekt eine Vektordatenbank für Wikidata, die ab dem 1. Oktober für alle frei zugänglich ist. Diese offenen Daten aus Wikidata lassen sich für die Entwicklung generativer KI-Anwendungen nutzen. Idee der Veröffentlichung ist die Demokratisierung von Large Language Models (LLM), die dadurch transparenter sowie auch gerechter gestaltet werden können und als Gegengewichte zu den Angeboten marktmächtiger Tech-Konzerne dient.
Der Zugang zur Vektordatenbank ist unter diesem Link möglich. Man wolle, so Wikimedia Deutschland, eine Infrastruktur schaffen, die es allen ermöglicht, generative KI-Anwendungen zu entwickeln, die auf überprüfbaren, freien und offenen Daten basieren. Für Entwickler stellt man verschiedene Angebote und Praxistipps zur Nutzung bereit.
Wikidata ist der größte offene Wissensgraph der Welt, dessen Daten von allen frei genutzt werden können. Er enthält aktuell rund 119 Millionen Einträge und wird von rund 24.000 Freiwilligen pro Monat weltweit erweitert. Das Ganze enthält unter anderem strukturierte Daten aus Wikimedia-Projekten wie Wikipedia, Wikivoyage oder Wikisource. Im Embedding-Projekt werden diese Daten in Vektoren und damit für generative Modelle semantisch interpretierbar, bereitgestellt. Für Nutzer ist Wikidata dann auch als nachvollziehbare Quelle mit Bezug auf die Suchergebnisse ausgewiesen.
Wikimedia sieht die Datenbank neben generativer KI als mögliche Grundlage für Fact-Checking-Tools oder auch zur Vandalismus-Bekämpfung. Zusätzlich unterstützt das Projekt das Model Context Protocol (MCP), ein Framework, das als Brücke zwischen KI und Datenbank fungiert. Die Vektordatenbank unterstützt bisher Suchanfragen in Englisch, Französisch und Arabisch. Bis Ende des Jahres folgen auch Spanisch und Mandarin, weitere Sprachen soll es künftig ebenfalls geben.
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.
Für eine offene Diskussion behalten wir uns vor, jeden Kommentar zu löschen, der nicht direkt auf das Thema abzielt oder nur den Zweck hat, Leser oder Autoren herabzuwürdigen. Wir möchten, dass respektvoll miteinander kommuniziert wird, so als ob die Diskussion mit real anwesenden Personen geführt wird. Dies machen wir für den Großteil unserer Leser, der sachlich und konstruktiv über ein Thema sprechen möchte - gerne auch mit Humor. In jedes Thema Politik einbringen ist nicht erwünscht. Es besteht kein Recht auf die Veröffentlichung eines Kommentars.
Du willst nichts verpassen?
Du hast die Möglichkeit, den Kommentar-Feed dieses Beitrags zu abonnieren. Wer natürlich alles lesen möchte, der sollte den Hauptfeed abonnieren.