KI-gestützte Metadatenextraktion für Dokumentenmanagement

Veröffentlicht: 10.12.2025 / zuletzt bearbeitet: 08.06.2026

Projektziele & Projektergebnis

Projektziele:
Umsetzung projekt in den Bereichen „IT“ mit dem Ziel der Erhöhung/Steigerung/ Optimierung der Zukunftssicherheit der IT-Systeme, des Informationsflusses (Qualität, Verfügbarkeit, Transparenz) und des Innovationsgrades.
Projektergebnis:
Das Projekt bestätigte durch die Entwicklung eines Prototypens die Machbarkeit der KI-gestützten Vertragsanalyse und ebnete den Weg für die Skalierung auf den gesamten Bestand von ca. 20.000 Verträgen.

Gesamtprojekt

Personentage
0 Tage
0 Tage
Nicht ausgeführt
0 Tage
0 Tage
0 Tage
Phase
Konzept
Prototyp
Entwicklung
Testen
Implementierung
Beteiligte
0
0
0
0
0
0
0
0
0
0
Kosten*
0 €
0 €
0 €
0 €
0 €
Projektphase ausgeführt
Projektphase nicht ausgeführt
interne Projektbeteiligte
externe Projektumsetzer

Top Erkenntnisse aus dem Projekt

  • Technologische Überlegenheit von VLM: Vision-Language-Models (VLM) erwiesen sich bei heterogenen, teils handschriftlichen oder grafischen Vertragsinhalten als deutlich robuster und qualitativ überlegen gegenüber der Kombination aus OCR und LLM, auch wenn dies mit höherem Rechenaufwand einhergeht.
  • Notwendigkeit von Iteration: Während Standarddaten sehr zuverlässig erkannt wurden, erforderte die korrekte Extraktion komplexer juristischer Klauseln (z. B. verschachtelte Verlängerungsoptionen) ein iteratives Prompt-Engineering.
  • Wert der Neutralität: Die anbieterneutrale Validierung durch das Mittelstand-Digital Zentrum lieferte eine entscheide Argumentationsgrundlage für die Geschäftsführung und minimierte das Risiko einer Fehlinvestition vor der Skalierung.
  • Ausgangslage

    Es gab neue Anforderungen in den Bereichen IT-Infrastruktur
    Durch die Geschäftsleitung wurde die Auswahl und Einführung eines Dokumentenmanagementsystems angestoßen worden.
    Es bestehen Optimierungspotenziale in den Bereichen Innovative Technologiethemen
    Neue Technologien wie Large-Language-Models (LLM) bieten grundsätzlich die Möglichkeit, solche Daten gezielt aus den Altverträgen zu extrahieren, um zukünftig deutlich effizienter mit Informationen arbeiten zu können.
    Die Datenauswertung war wenig bis gar nicht möglich in den Bereichen Geschäftsleitung
    Durch die fehlende Digitalisierung der Daten, war eine Auswertung (z. B. Gültigkeitsdauer eines Vertrags) bisher nicht möglich.
    Es lagen zu wenig Informationen vor in den Bereichen IT-Infrastruktur
    Wichtige Daten lagen zwar grundsätzlich vor, allerdings irgendwo versteckt in mehrseitigen Verträgen. Diese Daten wurden daher nicht als Informationen verwertet.

    Zentrale Fragestellungen im Projekt

    • Wie können historisch gewachsene, unstrukturierte Datenbestände aus tausenden von Bestandsverträgen effizient nutzbar gemacht werden?
    • Welcher technische Ansatz erweist sich im direkten Vergleich zwischen OCR mit LLM und Vision-Language-Models (VLM) als robuster und qualitativ überlegen?
    • Welcher technische Ansatz erweist sich im direkten Vergleich zwischen OCR mit LLM und Vision-Language-Models (VLM) als robuster und qualitativ überlegen?

    Projektdetails

    Zeitrahmen: 10.06.2025 - 10.12.2025

    Herausforderung Viele Unternehmen, darunter auch die Prowind GmbH, arbeiten mit historisch gewachsenen Datenbeständen. Textdateien sind oft uneinheitlich benannt und schwer auffindbar. Diese fehlende Struktur erschwert die schnelle Zuordnung von Dokumenten, etwa bei Verträgen. Ein klassisches Dokumentenmanagementsystem würde helfen, setzt jedoch eine aufwändige manuelle Vorsortierung und Metadatenvergabe voraus. Zielsetzung Im Projekt wird ein Prototyp für ein KI-basiertes Tool entwickelt, das automatisch Metadaten aus Textdateien extrahiert, analysiert und aufbereitet. So werden Dokumente zuverlässig kategorisiert und sind leichter auffindbar. Damit wird die Einführung eines Dokumentenmanagementsystems deutlich vereinfacht, der manuelle Aufwand reduziert und die Effizienz im Umgang mit Daten gesteigert. Projektbeschreibung Basierend auf Large Language Models (LLMs) werden Dokumentinhalte, Dateinamen und vorhandene Metadaten automatisch extrahiert und analysiert. So lassen sich beispielsweise Vertragsarten wie Pacht-, Kauf- oder Nutzungsverträge identifizieren und mit relevanten Kundendaten verknüpfen. Ein besonderer Fokus liegt auf der einfachen Bedienbarkeit: Filter und Einstellungen können intuitiv angepasst werden, sodass die Lösung auch auf ähnliche Anwendungsfälle übertragbar ist. Der Prototyp wird auf einer Plattform (wie z. B. GitHub) bereitgestellt, sodass Code und Dokumentation frei zugänglich sind. Das Projekt unterstützt damit nicht nur Prowind, sondern bietet auch KMU eine übertragbare Lösung zur effizienten Datenorganisation, die Kosten reduziert und den Weg zu einem strukturierten Dokumentenmanagement ebnet.

    Methoden

    Ergebnisse der einzelnen Projektphasen

    {acf_prototypenphase_bilder_prototypenphase_titel}
    {acf_prototypenphase_bilder_prototypenphase_beschreibung}
    {acf_entwicklungphase_bilder_entwicklungphase_titel}
    {acf_entwicklungphase_bilder_entwicklungphase_beschreibung}

    Unternehmensbeschreibung

    Name
    Prowind GmbH
    Anschrift
    Albert-Einstein-Str. 7, 49076 Osnabrück
    Umsatz pro Jahr
    Nicht angegeben
    Branche
    Energie- und Wasserversorgung
    Gründungszeitraum
    Nicht angegeben
    Beschäftigtenzahl
    50 - 249
    IT-Investition pro Jahr
    Nicht angegeben
    Unternehmensangebot
    Dienstleistung
    Unternehmer*innen Zitat zum Projekt
    Mit dem Projekt schaffen wir die Basis, unsere Daten effizienter zu organisieren und bei Bedarf schneller wiederzufinden. Das KI-Tool spart Zeit, reduziert Fehlerquellen und erleichtert die Suche nach relevanten Dokumenten – ein echter Gewinn für Prowind und viele andere Unternehmen.
    Tom Strating
    Prozessmanager Digitalisierung
    Projektbewertung aus Unternehmenssicht
    Mit dem Projektergebnis sind Sie zufrieden.
    Unsere Erwartungen an das Projekt wurden erfüllt.
    Sie würden die Projektumsetzer weiterempfehlen.

    Projektunterstützung

    Projektumsetzer
    Institut für Integrierte Produktion Hannover
    IPH
    Zentrum
    Mittelstand-Digital Zentrum Hannover
    MDZ Hannover
    projekt@mitunsdigital.de

    Weitere Kooperationspartner

    Projektumsetzer
    Institut für Integrierte Produktion Hannover
    Zentrum
    Mittelstand-Digital Zentrum Hannover
    Sie haben Fragen zu diesem Projekt? Sprechen Sie uns gerne an!
    Jetzt Kontakt aufnehmen

    Ähnliche Themen

    Datenerfassung und -analyse

    Dieses Projekt teilen