Wikimedia Deutschland startet Datenbank-Projekt gegen KI-Halluzinationen


Schluss mit KI-Halluzinationen?

Wikimedia Deutschland hat ein neues Projekt vorgestellt, das Wikipedia-Informationen für KI-Modelle zugänglich macht.

Das „Wikidata Embedding Project" ist eine Vektordatenbank für Wikidata. Es basiert auf einer Methode, die Computern hilft, Bedeutung und Beziehungen zwischen Wörtern zu verstehen.

ADVERTISEMENT

Laut Wikimedia macht das Projekt „rund 120 Millionen offene Datenpunkte aus der weltweit größten freien Wissensdatenbank" für KI-Training nutzbar.

Die Idee: Entwickler außerhalb der Tech-Giganten bekommen die Ressourcen für eigene KI-Anwendungen. Das Projekt umfasst ein Embedding-System, das Wikidata-Daten in Vektoren umwandelt, während DataStax sie in der Vektordatenbank Astra DB speichert.

wikipedia_page
Image by Shutterstock.

Laut Wikimedia umfasst Wikidata mittlerweile 120 Millionen Einträge. Während Computer diese Daten verarbeiten können, scheitern generative KI-Systeme daran – die Informationen sind für natürliche Sprache konzipiert.

Die Übersetzung von Wikidata in Vektoren – „Zahlenkoordinaten, die zeigen, wie unterschiedliche Aussagen miteinander in Verbindung stehen" – hilft KI-Systemen, Verbindungen zwischen Begriffen zu lernen. So versteht die KI etwa, dass „Hund" und „Welpe" eng zusammenhängen, während „Hund" und „Bankkonto" keine Verbindung haben.

Das Projekt führt auch das Model Context Protocol (MCP) ein, das die Kommunikation zwischen KI und Vektordatenbanken ermöglicht. Software-Entwickler müssen praktisch nur einen USB-Stecker einstecken, damit ihre KI auf Wikidatas Daten zugreifen kann.

Eines der Hauptprobleme für KI-Entwickler: An korrekte, hochwertige Datenquellen zu kommen.

jurgita justinasv Izabelė Pukėnaitė vilius Ernestas Naprys Gintaras Radauskas
Folge uns bei Google News
ADVERTISEMENT

Das Projekt liefert generativen KI-Modellen nicht nur „verlässliche Daten aus Wikidata", sondern auch aktuelle Informationen. Bisherige KI-Modelle wurden oft mit veralteten Daten trainiert.

Das heißt: KI-Modelle werden Nutzern genauere und verlässlichere Antworten liefern.

Laut Wikimedia Deutschland macht das neue Projekt KI-Anwendungen vertrauenswürdiger – sie werden mit „von Menschen geprüften" und „frei verfügbaren Daten" trainiert und erzeugen dadurch transparentere Ergebnisse.


Entdecke mehr exklusive Inhalte von Cybernews auf YouTube.