Dokumentformatierung mittels intelligenter Strukturerkennung

Veröffentlicht: 28.09.2023 / zuletzt bearbeitet: 08.06.2026

Projektziele & Projektergebnis

Projektziele:
Umsetzung projekt in den Bereichen „Prozesse“ mit dem Ziel der Erhöhung/Steigerung/ Optimierung von Prozessen.
Projektergebnis:
Durch die Einführung der Automatisierung können absehbar signifikante Zeit- und Personalaufwände eingespart werden.

Gesamtprojekt

Personentage
0 Tage
0 Tage
Nicht ausgeführt
0 Tage
0 Tage
0 Tage
Phase
Konzept
Prototyp
Entwicklung
Testen
Implementierung
Beteiligte
0
0
0
0
0
0
0
0
0
0
Kosten*
0 €
0 €
0 €
0 €
0 €
Projektphase ausgeführt
Projektphase nicht ausgeführt
interne Projektbeteiligte
externe Projektumsetzer

Top Erkenntnisse aus dem Projekt

  • OCR und KI kombiniert automatisiert Klassifikation mit menschlicher Überprüfung.
  • Analyse verfügbarer Technologien ist entscheidend.
  • Ausgangslage

    Es bestehen Optimierungspotenziale in den Bereichen Prozesse
    Der Prozess war ein manuelle, zeitaufwendiger und repetitiver Prozess, der durch OCR automatisiert werden konnte.
    Die Effizienzsteigerungspotenziale wurden nicht ausgeschöpft in den Bereichen Prozesse
    Bisher wurde eine händische und damit zeitaufwendigs Zuordnung durch die Mitarbeiter durchgeführt.

    Zentrale Fragestellungen im Projekt

    • Wie kann eine hohe Qualität der Traingsdaten bereitgestellt werden?
    • Wie kann eine mensch-zentrierte KI den Prozess verbessern?
    • Wie kann die benutzerfreundlichkeit gestaltet werden, damit eine schnelle Bearbeitung der Dokumente möglich ist?

    Projektdetails

    Zeitrahmen: 08.03.2021 - 01.06.2022

    ls Satzagentur wandelt Satzweiss.com regelmäßig bereits veröffentlichte Artikel in neutrale Formate um. In diesem neutralen Format sind alle Informationen zu den Inhalten der Dokumente und deren Struktur bekannt, sodass von diesem eine Umwandlung in jegliche neue Formate möglich ist. Um dies zu gewährleisten, markieren die Mitarbeitenden von Satzweiss.com in einem händischen, zeitaufwändigen und sich wiederholenden Prozess einzelne Textabschnitte mit den entsprechenden Klassen (Überschrift, Aufzählung, etc.). Das Ergebnis ist ein einheitliches und medienneutrales Format.

    Monatlich überführt das Unternehmen ca. 800 Dokumente in einheitliche Formate, die zwischen einer und mehreren hundert Seiten aufweisen. Dafür fallen für die händische Klassifizierung der Textbausteine durch Mitarbeitende (auch Tagging genannt) ca. 240 Mitarbeitendenstunden pro Monat an. Ziel ist es, über eine Softwarelösung den Klassifikationsprozess zu automatisieren. Dadurch kann der manuellen Aufwand durch die Mitarbeitenden minimiert werden. Außerdem ermöglicht dies eine potenzielle Erweiterung des Geschäftsmodells, skalierend ohne Mitarbeitendenüberlastung zusätzliche Aufträge annehmen zu können.

    Die Projektmitarbeitende des Kompetenzzentrums Saarbrücken evaluierten in einer umfassenden Technologierecherche mögliche Lösungswege und bewerteten diese anhand einer Machbarkeitsanalyse. Dazu wurden Bedarfe und Anforderungen bezüglich der Klassifikation von Textbausteinen im konkreten Anwendungsfall mit Satzweiss.com erarbeitet. Die Analyse ergab, dass bereits auf dem Markt existierende Standardlösungen die bestehenden Anforderungen nicht erfüllen. Aus einer Auswahl verschiedener Technologien kristallisierte sich die bildbasierte Klassifikation mittels Objekterkennung als die nötige Technologie heraus, um eine entsprechende Automatisierung des dargestellten Prozesses durch eine Softwareentwicklung zu ermöglichen.

    Im Rahmen des Umsetzungsprojektes wurde eine Architektur entwickelt, um automatisiert eingehende Dokumente zu analysieren und deren Textbausteine zu klassifizieren. Eingangsdokumente gelangen in einem nicht bearbeitbaren Format (PDF) zu Satzweiss.com. Danach wird das Dokument gleichzeitig durch OCR und Künstliche Intelligenz prozessiert. Die OCR-Komponente wandelt den zuvor nicht bearbeitbaren Textinhalt in ein bearbeitbares Format um. Die Künstliche Intelligenz (Objekterkennung) klassifiziert die im Dokument vorhandenen Textbausteine. Durch die geschickte Kombination von OCR und KI wird ein Dokument erstellt, in welchem möglichst alle benötigten Inhalts- und Strukturinformationen enthalten sind. Aufgrund der Komplexität der Klassifikation und dem Anspruch einer nahezu fehlerfreien Klassifikation wird das Ergebnis durch einen Mitarbeitenden von Satzweiss.com überprüft und falls notwendig erweitert oder korrigiert. Die Erkenntnisse durch die Fehlerkorrektur werden dem Algorithmus zur Verfügung gestellt, um im nächsten Durchlauf die korrekte Klassifizierung durchzuführen. Die Erkenntnisse durch die Fehlerkorrektur werden dem Algorithmus zur Verfügung gestellt, um in der nächsten Prozessierung die korrekte Klassifizierung durchzuführen. Mit dem Wissen über den Inhalt und die Klassifikation wird das Dokument durch eine seitens Satzweiss.com entwickelte Softwarelösung in das finale Format überführt. Durch die Umsetzung der Lösungsarchitektur würden voraussichtlich über 85% der im aktuellen Prozess entstehenden Personalaufwände reduziert werden.

    Ergebnisse der einzelnen Projektphasen

    {acf_prototypenphase_bilder_prototypenphase_titel}
    {acf_prototypenphase_bilder_prototypenphase_beschreibung}
    {acf_entwicklungphase_bilder_entwicklungphase_titel}
    {acf_entwicklungphase_bilder_entwicklungphase_beschreibung}

    Unternehmensbeschreibung

    Name
    Satzweiss.com Print Web Software GmbH
    Anschrift
    Mainzer Straße 116, 66121 Saarbrücken
    Umsatz pro Jahr
    Nicht angegeben
    Branche
    Kultur, Medien und Kreativwirtschaft
    Gründungszeitraum
    Vor 10 - 49 Jahren
    Beschäftigtenzahl
    10 - 49
    IT-Investition pro Jahr
    Nicht angegeben
    Unternehmensangebot
    Dienstleistung
    Unternehmer*innen Zitat zum Projekt

    Projektunterstützung

    Projektumsetzer
    August-Wilhelm Scheer Institut gGmbH
    AWSi gGmbH
    t.greff@digitalzentrum-saarbruecken.de
    Zentrum
    Mittelstand 4.0-Kompetenzzentrum Saarbrücken
    MDK Saarbrücken
    info@digitalzentrum-saarbruecken.de

    Weitere Kooperationspartner

    Projektumsetzer
    August-Wilhelm Scheer Institut gGmbH
    Zentrum
    Mittelstand 4.0-Kompetenzzentrum Saarbrücken
    Sie haben Fragen zu diesem Projekt? Sprechen Sie uns gerne an!
    Jetzt Kontakt aufnehmen

    Ähnliche Themen

    Layout, Texterkennung, Objekterkennung, Klassifikation, OCR

    Dieses Projekt teilen