Lösungsvorschlag NorCom: DaSense
Die vorgeschlagene Lösung basiert auf der DaSense KI-Plattform. Zuerst werden die grundlegenden Funktionen von DaSense erläutert, gefolgt von einer Erklärung, wie der Lösungsvorschlag davon profitieren kann.
NorCom ist seit Jahren im Bereich maschinelles Lernen, Data Science, Advanced Analytics und Natural Language Processing tätig. Die KI-Plattform DaSense ermöglicht das Suchen, Labeln, Visualisieren und Analysieren großer Datenmengen sowie die Automatisierung zeitaufwendiger Aufgaben. In Projekten verarbeiten wir sowohl Textdokumente als auch quantitative Daten in tabellarischen und Zeitreihenformaten. NorCom hat sich besonders bei Zeitreihenanalysen bewährt, z.B. bei der Phasenerkennung von Spritzgussmaschinen und der Erkennung von Anomalien in der Automobilbranche.
DaSense kann sowohl on-premises als auch in der Cloud (z.B. Azure Cloud) betrieben werden und auf lokale sowie Azure-Daten zugreifen. Analysen können dank Big Data Formaten hochparallelisiert mit Spark durchgeführt werden, was eine Skalierbarkeit bis zu mehreren hundert Petabytes ermöglicht. Die Cloud-Lösung bietet Skalierbarkeit der Rechenleistung, während die lokale Lösung höchste Sicherheit für vertrauliche Daten bietet. Sicherheit und Anonymisierung sind bei DaSense entscheidend, um Datenschutzrichtlinien zu erfüllen und unbefugten Zugriff zu verhindern. NorCom hat durch zahlreiche Projekte eine hohe Expertise in diesem Bereich aufgebaut und entsprechende Features in DaSense integriert.
DaSense kann mit beliebigen Datenquellen verbunden werden, was eine schnelle Suche in den Dateiinhalten ermöglicht. Dateien können mit sogenannten Facetten gelabelt werden, um effektiver zu suchen. Gelabelte Dokumente ermöglichen z.B. die Filterung nach bestimmten Begriffen im Fragebogen (z.B. Raucher). Erweiterte Informationen wie Messdatenkanäle können direkt in DaSense visualisiert werden.
Ausgewählte Daten können mit einem Klick an KI-Apps geschickt werden, die ein KI-Modell trainieren, speichern und zur Klassifizierung neuer Daten verwenden. Die Analysehistorie wird gespeichert und kann nachverfolgt werden. Interne Python-Bibliotheken ermöglichen komplexe Analysen von Zeitreihendaten. Automatisierte Datenverarbeitungspipelines können ebenfalls betrieben werden, um neue Daten vollautomatisch zu klassifizieren und zu labeln.
Lösungsvorschlag:
In diesem Absatz wird der Workflow der vorgeschlagenen Lösung beschrieben. Da die vom Analysegerät generierten Messdaten meist vertraulich sind, sollten sie nicht in die Cloud geschickt werden. Stattdessen werden sie lokal gespeichert und verschlüsselt an einen zentralen Speicherort (im Folgenden als zentrale Datenquelle bezeichnet) geschickt und dort gespeichert. Alternativ könnte eine Cloud-Speicherlösung angeboten werden, wobei die Daten dann auf externen Servern liegen würden. In dieser Datenquelle werden auch die Fragebögen der Patienten gespeichert.
Die KI-Plattform DaSense ist mit dieser zentralen Datenquelle verbunden, sodass die Dateien anhand ihrer Metadaten in DaSense durchsuchbar sind und vollautomatisch (oder durch Benutzerschnittstellen) an die KI-Apps geschickt werden können.
Das KI-Modell verarbeitet gleichzeitig die textuellen Daten aus den Fragebögen und die Messdaten. Textdaten werden je nach Struktur der Fragen in bestimmte Features extrahiert. Bei einfachen Fragen mit vordefinierter Auswahl können die angekreuzten Antworten (z.B. Raucher Ja/Nein) im KI-Modell durch One-Hot-Encoding berücksichtigt werden. Für freie Textfelder können mithilfe von LLMs bestimmte Informationen extrahiert und ebenfalls in binäre Werte encodiert werden.
Die numerischen Daten der Messdateien werden zunächst durch einen Preprocessing-Schritt gesäubert (z.B. Rauschreduktion, Glättung, Basislinienkorrektur, Alignment, Normalisierung der Werte usw.) und anschließend werden relevante Features extrahiert (z.B. Höhe, Breite, Anzahl, Position und andere Statistiken der Peaks) sowie relevante Ereignisse erkannt (z.B. Überlappung von zwei Peaks).
Die Modellarchitektur ist in einem Bild dargestellt und besteht aus einer Kombination von verschiedenen Architekturen (RNN, LSTM, CNN, Dense Layers), die ermöglichen das KI-Modell komplexe und heterogene Datenquellen analysieren und fundierte Vorhersagen oder Entscheidungen zu treffen. Am Ende sorgt eine Softmax-Schicht dafür, dass das Output ein binärer Wert ist (Erkrankte/Nicht Erkrankte).
Diese Verarbeitung erfordert eine lokale oder Cloud-GPU. Die Performance des Modells wird anhand einer Konfusionsmatrix und anderen Metriken wie dem F1-Score berechnet. Die KI-Plattform DaSense enthält eine integrierte MLflow-Instanz, d.h. ein fertig trainiertes KI-Modell kann gespeichert und bei Bedarf abgerufen werden, wenn neue Daten zur Klassifizierung ins System kommen.
Die Ergebnisse der Klassifizierung werden sofort als Labels in DaSense gespeichert und können per REST API-Schnittstelle an den Gesundheitskiosk gemeldet werden, um eine Live-Klassifizierung zu ermöglichen.