GovRadar Data Extractor & Analyser
Die von GovRadar angebotene Lösung besteht aus zwei Kernkomponenten:
1) KI und NLP Methoden gestütztes Analysewerkzeug
Die intelligente Analyseplattform extrahiert, analysiert und strukturiert Informationen aus verschiedenen Formaten (Word, Excel und GAEB). Die Prozesse umfassen das Parsen der Daten, das Identifizieren relevanter Stellen, das Kategorisieren und Extrahieren der dort beinhalteten (Meta-)Informationen, sowie das Speichern dieser in einer strukturierten Datenbank (RDBMS). GAEB-Dateien, aufgrund ihrer strukturierten Daten, sind einfach zu parsen und zu analysieren, während Word- und Excel-Dateien komplexer zu verarbeiten sind, je nachdem ob die Dateien auf einem fest vorgegebenem Schema bzw. einer Vorlage basieren oder völlig frei sind. Abhängig von der Datenstruktur kommen hier verschiedene Techniken aus den Bereichen Volltextsuche, NLP und KI zum Einsatz.
So können zielgerichtet entsprechende Passagen erkannt werden, ob über feste Suchbegriffe wie in der Challenge vorgegeben oder auch über eine Reihe semantischer Suchen nach vergleichbaren Begriffen. Je nach Komplexität der Daten kommen zudem trainierte KI Modelle zum Einsatz, die auf die Erkennung entsprechender Textpassagen spezialisiert sind oder hierfür trainiert werden. Auch der Einsatz von LLMs kann u.U. sinnvoll sein, bei Anforderungen bzgl. on-premise Betrieb können auch kleinere und dennoch leistungsfähige Modelle eingesetzt werden. Sollen auch PDFs analysiert werden, gibt es auch hier verschiedenste Lösungen, bis hin zu dedizierten dedizierten zu OCR KI Modellen.
Für die Erkennung von insbesondere der Art der Leistung (z.B. Gewerke oder Leistungsbeschreibung wie in dem bereitgestellten Beispiel Excel) können entsprechende Suchbegriffe / Arten vordefiniert werden. Darüber hinaus kann das System auch eigenständig Arten erkennen und diese als Vorschläge anbieten. Die Kombination aus Selbsterkennung und Nutzervorgaben von Begriffen gewährleistet die Lernfähigkeit des System auch langfristig. Mittels Embeddings und entsprechend berechenbarer semantischer Ähnlichkeit können so auch Synonyme und ähnliche Begriffe automatisiert erkannt werden, wie genanntes Tor vs. Tor. Neben der automatischen Synonymerkennung kann über ein entsprechendes Interface zudem auch Nutzervorgaben gemacht werden. Dies bietet maximale Automatisierung bei dennoch voller Kontrolle und Flexibilität.
Die Lösung ermöglicht die Extraktion, Verarbeitung und Findung beliebiger Informationen, die genannten Themen wie Art (z.B. (Dienst-) Leistung oder Material), Menge, Einheit, Preis sowie auch Metadaten wie Datum, Anbieter / Lieferant, Vergabenummer, Niederlassung, etc. Das System ist damit zu jeder einfach erweiterbar und lernfähig.
Human in the loop
Die Lösung beinhaltet ein entsprechendes Wartungsinterface für Admins, welches die extrahierten Informationen übersichtlich darstellt und das Festlegen entsprechender Suchbegriffe und Regeln erlaubt, sowie entsprechende Vorschläge gibt. Zudem werden entsprechend Daten und Dokumente markiert, aus denen entweder keine Informationen extrahiert werden konnten oder deren Inhalte nicht eindeutig sind. Hier wird auch auf erkannte Optionen oder auch Nebenangebote hingewiesen, bei welchen ggf. ein Mitarbeiter angeben muss welche gewählten Optionen oder Nebenangebote tatsächlich beauftragt wurden. Die Lösung kann den Großteil der Arbeit übernehmen, entsprechende Sonder- und Spezialfälle wird es jedoch immer geben. Um diese abzufangen werden Überwachungswerkzeuge bereitgestellt, welche Sonderfälle markieren und es dem Menschen erlauben die Ergebnisse zu überprüfen und ggf. korrigierend einzugreifen.
2) Business Intelligence Tool
Die zweite Kernkomponente bildet ein dynamisches Analyse Tool, wie man es aus dem Bereich Business Intelligence kennt. Durch die strukturierte Abspeicherung der Daten können diese auf vielfältige weise analysiert werden. So können die Daten nach verschiedenen Dimensionen wie u.a. Art, Gewerk, Datum, Preis, Volumen, Anbieter, Vergabenummer, etc. gefiltert oder auch gruppiert werden. Dies eröffnet auch die Möglichkeit der grafischen Darstellung der Informationen.
Die Ergebnisse können in verschiedenen Exportformaten aus dem System geleitet werden. Dies können einfache Excel Formate sein, wie das in der Challenge hinterlegte Beispiel, oder auch direkt maschinenlesbare Formate wie XML- oder JSON-Dateien. Auch weitere Exportformate können angeboten werden, wie PDF/A, welches eine Kombination aus menschenlesbarem Sichtformat und embeddeden, maschinenlesbaren Daten darstellt.
Neben Exportformaten könnten die Daten so z.B. auch flexibel per API abgerufen werden, entweder für weitere interne Services / Tools oder auch eine einfache Integration mit anderen Drittsystem. Auch eine Schnittstelle zu SAP S/4HANA ist somit einfach möglich.