Data-centric AI

Lernen mit wenigen Daten oder wenigen annotierten Daten

© Fraunhofer IIS

Data-centric AI (DCAI) bietet eine neuartige, ergänzende Perspektive auf die KI-Modellbildung. Der Schwerpunkt wird dabei von der Modellbildung auf die Kuratierung hochwertiger, einheitlich annotierter Trainingsdatensätze verlagert. Die zugrundeliegende Erkenntnis ist, dass bei vielen KI-Projekten die Hebelwirkung zur Verbesserung der Modellleistung in der Kuratierung der verwendeten Trainingsdaten liegt.
DCAI umfasst ein breites Spektrum von Methoden, wie z. B. die modellbasierte Erkennung von Annotationsfehlern in den Trainingsdaten, die Schaffung konsistenter Multirater-Annotationssysteme, die eine Datenannotation mit minimalem Aufwand und maximaler Qualität ermöglichen, die Verwendung schwacher und halbüberwachter Lernmethoden, um unannotierte Daten zu nutzen, und Human-in-the-Loop-Ansätze zur iterativen Verbesserung von Modellen.


 

Die bahnbrechenden Erfolge von künstlicher Intelligenz (KI) bei Aufgaben wie Spracherkennung, Objekterkennung oder maschineller Übersetzung sind u.a. auf die Verfügbarkeit von enorm großen, annotierten Datensätzen zurückzuführen. Annotierte Daten, auch gelabelte Daten genannt, enthalten die Label-Informationen, die die Bedeutung einzelner Datenpunkte ausmachen und sind essentiell für das Training von Machine Learning Modellen. In vielen realen Szenarien, besonders im Industrieumfeld, liegen zwar oftmals große Datenmengen vor, diese sind aber nicht oder nur wenig annotiert. Dieses Fehlen annotierter Trainingsdaten stellt eine der großen Hürden für die breite Anwendung von KI-Methoden im Industrieumfeld dar. Daher wird in der Kompetenzsäule »Few Labels Learning« das Lernen mit wenig annotierten Daten innerhalb von drei Schwerpunkten und verschiedenen Bereichen erforscht: Meta-Lernstrategien, Semi-supervised Learning und Datensynthetisierung.

Meta-Lernstrategien für Pathologie und Autonome Systeme

Im Rahmen der Umsetzung von »Meta Lernstrategien« unter anderem im »Bereich der bildgebenden Medizin« werden Methoden wie Few-Shot oder Transfer-Learning entwickelt und erforscht.

Gerade in der Medizin im Bereich der Gewebeklassifikation ist die Annotation von großen Datensätzen besonders schwierig und die Datensituation variiert oft von Krankenhaus zu Krankenhaus bzw. von Aufnahmegerät zu Aufnahmegerät. Daher eignen sich hierbei Verfahren des Few-Shot Learnings, wie beispielsweise Prototypical Network, um zwischen verschiedenen Anwendungen zu generalisieren. Methoden des Transfer Learnings, wobei Modelle auf vergleichbaren Datensätzen mit vielen annotierten Datenpunkten gewissermaßen vortrainiert werden, um sie dann auf die eigentliche Problemstellung anzuwenden, werden in diesem Kontext auch für die praktische Auswertung von medizinischen CTs verwendet.

Insgesamt werden in der Applikation »Robuste KI für Digitale Pathologie« Methoden des Few-Shot Learnings für die interaktive Gewebeklassifikation genutzt. Durch die Möglichkeit zur Interaktion mit den Modellen, können auch eventuelle, neue Gewebeklassen berücksichtigt werden.

In der Applikation »KI-Framework für Autonome Systeme« werden unter Anderem Meta-Lernstrategien für das autonome Fahren erforscht. Dabei werden Reinforcement-Learning Modelle in einer Simulationsumgebung vortrainiert und dann via Transfer-Learning für die Anwendung in der Realität angepasst. In einem weiteren Teilbereich dieses Projekts wird Continual Learning eingesetzt, um Modelle zu trainieren, die sich schnell und flexibel an neu auftretende Szenarien im autonomen Fahren anpassen können. 

 

Semi-supervised Learning im Zeitreihenkontext

Methoden des »Semi-supervised Learning« werden in Szenarien angewandt, in denen zwar viele Trainingsdaten vorhanden sind, von denen allerdings nur eine Minderheit auch annotiert ist. Diese Methoden lassen auch latente Informationen aus den nicht-annotierten Daten, wie z.B. Ähnlichkeiten, in das Modell-Training mit einfließen um performante Machine Learning Modelle zu trainieren.
In einem Teilprojekt werden Methoden aus dem Bereich der »Consistency Regularization« für die Anwendung auf sequentiellen Sensordaten erforscht und entwickelt. Weiterhin werden Semi-supervised Lernstrategien in einem Projekt im Bereich der Kamera-basierten, automatisierten Müllsortierung eingesetzt, um dabei das Problem weniger annotierter Trainingsdaten zu umgehen. 

Datensynthetisierung im Bereich der datengetriebenen Lokalisierung

Im Bereich der Lokalisierung ist die Annotation von Trainingsdaten technisch herausfordernd und zeitintensiv, daher gilt es hier die richtigen Methoden für die Unterstützung bei der Datenerhebung zu entwickeln.
In der Applikation »Datengetriebenen Lokalisierung« wird daher eine Messplattform zur effizienten Datenannotation durch Active Learning und unter Einbeziehung von Predictive Uncertainty entwickelt, um dem Anwender Messpunkte vorzuschlagen, die den größten Informationsgewinn erwarten lassen.
Die Generierung der Mess- bzw. Trainingsdaten bei der datengetriebenen Lokalisierung erfordert andererseits aber auch die Einbeziehung der statistischen Verteilung bzw. der Nicht-Linearitäten der Signalausbreitung in der Umgebung. Schon während der Datenannotationsphase wird daher auf eine Ungleichverteilung der Klassenmengen geachtet.
Durch Verfahren wie beispielsweise »SMOTE«, bei welchem entweder Trainingsdaten der überrepräsentierten Klasse verworfen oder aber zusätzliche Daten aus der unterrepräsentierten Klasse augmentiert werden, sollen solche Effekt ausgeglichen werden.


Durch Digitalisierung und die stetige Entwicklung in der Erforschung von Künstlicher Intelligenz (KI), insbesondere im Bereich Machine Learning (ML), profitieren derzeit viele Unternehmen, indem sie neue datengetriebene Geschäftsmodelle entwickeln oder Prozesskosten (z. B. in der Fertigung) senken können. Ein wichtiger Baustein für diese KI-Entwicklung ist das Vorhandensein einer großen Menge von qualitativ hochwertigen Daten.

Doch nicht immer sind die Daten in einer ausreichenden Menge vorhanden, vollständig, fehlerfrei oder aktuell, sodass sie für ML-Anwendungen nicht wirklich sinnvoll genutzt werden können. Durch Methoden der Datenerweiterung (Data Augmentation – kurz: DA) ist es möglich, die Datenqualität und -quantität signifikant zu verbessern. Dadurch können ML Modelle in manchen Anwendungsfällen erstmalig eingesetzt oder die Ergebnisse bestehender ML Modelle optimiert werden.

Few Data Learning kommt in Anwendungsbereichen zum Einsatz, in denen eine sehr kleine Datenbasis vorliegt: beispielsweise im Bereich der Bilderkennung, vor allem in der Medizintechnik zur Diagnose von Gewebeanomalien, für Computer Vision Anwendungen in der Bild- und Videoproduktion, oder für Prognose- und Optimierungsanwendungen in der Produktion und Logistik.

Bestehende Few Data Learning Methoden wurden für jeweils sehr spezifische Datenprobleme entwickelt und verfolgen unterschiedliche Zielsetzungen. Daher ist die Herausforderung in Forschung und Anwendung, für einen konkreten Anwendungsfall die richtigen Few Data Learning Verfahren auszuwählen, miteinander zu kombinieren und weiterzuentwickeln.


Innerhalb des ADA Lovelace Centers ist die Arbeit der Kompetenzsäule Few Data Learning eng verknüpft mit der Säule Few Labels Learning, in welcher die Annotation großer Datensätze im Fokus steht. Denn in der Praxis treten beide Probleme häufig zusammen auf: Wenn Daten fehlen, fehlerhaft sind oder nicht in ausreichender Menge vorhanden sind, fehlen häufig auch die dazugehörigen Annotationen. Daher werden Verfahren aus den beiden Kompetenzsäulen »Few Data Learning« und »Few Labels Learning« oft miteinander kombiniert.

Datenerweiterung mittels Datenaugmentierung

Datenerweiterung_mittels_Datenaugmentierung
© Fraunhofer IIS

Beim klassischen maschinellen Lernen, werden möglichst viele Daten als Trainingsdaten benötigt, damit das Modell lernt die entsprechende Klassifikations- oder Regressionsaufgabe zu lösen und auf ungesehenen Testdaten in der Evaluation gute Ergebnisse liefert. Im Gegensatz dazu bezeichnet Few Data Learning eine Reihe von Machine Learning Verfahren bei denen die Datenbasis sehr klein ist und hat ihren Ursprung in der Statistik. Um die Datenbasis zu erweitern, wird mit Datenaugmentierung gearbeitet. Dafür sind verschiedene Methoden einsetzbar, es werden beispielsweise die wenigen bestehenden Daten leicht abgeändert oder mit Modellen neue Datenpunkte erzeugt. Die Augmentierungsverfahren hängen von der Art der Daten und der Problemstellung ab, meist kommen mehrere Methoden in Kombination zum Einsatz.

Die Schwerpunkte der Forschung innerhalb der Kompetenzsäule Few Data Learning liegen auf:

  • Ausnutzung von Ähnlichkeiten in niedrig-dimensionalen Datensätzen (z. B. Interpolation, Imputation, Clustering) zur Ergänzung fehlender Daten
  • Erzeugung synthetischer Daten durch Redundanzreduktion in hoch-dimensionalen Datensätzen (z. B. Autoencoder, PCA, dynamische Faktormodelle)
  • Simulation von Prozessen und Daten (z. B. in der Produktion mit AnyLogic sowie SimPlan oder durch physikalische Modelle)

Der Unterschied zwischen ähnlichkeits- und redundanzbasierten DA Methoden ist in der beistehenden Grafik illustriert.


Wenn eine Zeitreihe (hier Nachfrage in Stück nach einem Produkt) mit wenigen Datenpunkten zur ML Modellierung erweitert werden soll, kann nach ähnlichen bereits vorhandene Zeitreihen gesucht werden. Im Anschluss werden diese Datenpunkte zu Erweiterung der kurzen Zeitreihe direkt übernommen. Die Suche nach ähnlichen Daten erfolgt beispielsweise mittels Clustering Verfahren.

Falls eine solche direkte Zuordnung zu ähnlichen Zeitreihen nicht möglich, schwierig oder nicht gewollt ist, kann stattdessen aus mehreren verfügbaren Zeitreihen eine synthetische Datenreihe neu generiert werden welche die Informationen der vielen Datenreihen repräsentiert. Dabei werden Redundanzen in einem hochdimensionalen Datensatz ausgenutzt, um eine niedrigdimensionale Repräsentation des gesamten Datensatzes zu generieren.

In manchen Anwendungen kann es sogar vorkommen, dass keinerlei Daten zur Analyse vorliegen. In diesem Fall können mit Simulationsmodellen komplett synthetische Daten generiert werden. Beispielsweise in der Produktion: Wenn eine bestehende Fertigung auf ein komplett neues Produkt umgestellt werden soll, gibt es dafür noch keine Erfahrungswerte bzw. Daten. In dem Fall kann auf Basis der bestehenden Daten und der Prozessmodellierung eine Simulationsumgebung erstellt werden, welche für die neuen Produkte Daten simuliert, um diese anschließend mittels ML Modellen zu analysieren. Dabei ist es besonders wichtig, aber auch schwierig, möglichst realistische Daten zu simulieren, welche bestimmte Charakteristika (z. B. Produktionsfehler oder Maschinenstillstände) nicht über- oder unterschätzt, damit das ML Modell auch im laufenden Betrieb mit realen Daten gute Ergebnisse liefern kann.

Datenerweiterung in der Digitalen Pathologie

In der Applikation Robuste KI für Digitale Pathologie werden KI-Methoden entwickelt um Darmkrebs auf CT-Gewebescans automatisiert zu erkennen. Dabei stehen oft nur sehr wenige Daten zur Verfügung. Daher wurden im Rahmen der Kompetenzsäule Few Data Learning verschiedene Verfahren der Datenaugmentierung anhand einer Multi-Scanner Datenbank miteinander verglichen. Ziel ist es eine robuste Gewebeanalyse in Darmschnitten von Adenokarzinomen zu gewährleisten. Dabei wurden verschiedene konvolutionale Netzwerk-Architekturen hinsichtlich ihrer Ausführungsgeschwindigkeit und Robustheit auf einer Multi-Scanner Datenbank verglichen. Die Robustheit wird dabei durch Anwendung von Datenaugementierung, speziell Farbaugmentierungen, erzielt.

Generierung einer optimierten Datenbasis für Diagnosen in Funksystemen

In der Applikation KI-gestütze Diagnosen in Funksystemen wird eine Toolchain zur automatisierten Erkennung und Vorhersage von Übertragungsstörungen in drahtlosen Netzwerken entwickelt. Dabei wird ein Beitrag zur Verbesserung von Fehleranalysewerkzeugen in Funknetzwerken, unter Verwendung von Spektrumanalysatoren geleistet. Mithilfe von auf maschinellem Lernen basierenden Bildverarbeitungsalgorithmen werden einzelne Frames verschiedener Funktechnologien sowie Kollisionen zwischen Frames in Echtzeit erkannt und entsprechend ihres Kommunikationsstandards klassifiziert. Zur Verbesserung der Datenbasis wurden die mit einem Vektorsignalgenerator erzeugten Funksignale in einer eigens entwickelten Simulations-Pipeline weiterverarbeitet und rekombiniert. Über diesen Ansatz konnte auf einen umfangreichen gelabelten Trainingsdatensatz zurückgegriffen werden.

Clusteringverfahren für die Ersatzteilprognose

In der Applikation Selbstlernende adaptive logistische Netzwerke wurde ein Verfahren entwickelt, welches auf Basis von unvollständigen Verbrauchsdaten von Ersatzteilen in der Logistik mittels Clustering-Verfahren Ähnlichkeiten in einem großen Datensatz erkennt und verfügbare Verbrauchsdaten über einen längeren Zeithorizont zur Prognose von neuen Ersatzteilen (ohne lange Datenhistorie) nutzt.

»ADA will´s wissen« Podcast

In unserer »ADA will's wissen«-Podcastreihe sind die Verantwortlichen der Kompetenzsäulen im Gespräch mit der ADA und geben Einblick in ihre Forschungsschwerpunkte, Herausforderungen und Methoden. Hier sind zwei Folgen, in denen Sie ADA mit Few Labels Learning-Experte Jann Goschenhofer oder mit Few Data Learning-Experte Dr. Christian Menden hören können.

Podcastfolge zu »Few Labels Learning« mit ADA und Jann Goschenhofer

Podcastfolge zu »Few Data Learning« mit Dr. Christian Menden

Die KI-Kompetenzsäulen des ADA Lovelace Centers

Automatisches Lernen
© Fraunhofer IIS

Das automatische und adaptive Lernen (AutoML) beschäftigt sich mit der Automatisierung des KI Prozesses und von besonders arbeitsintensiven, manuellen Aufgaben, die im Regelfall von Experten durchgeführt werden. So wird das Maschinelle Lernen zugänglicher und effizienter. AutoML deckt einen großen Bereich ab, der bei der Automatisierung der Merkmalserkennung und -auswahl für gegebene Datensätze sowie der Modellsuche und -optimierung beginnt, über deren automatisierte Bewertung reicht und bis hin zur adaptiven Anpassung der Modelle durch Trainingsdaten und Systemfeedback geht.  

Sequenzbasiertes Lernen
© Fraunhofer IIS

Sequenzbasiertes Lernen beschäftigt sich mit zeitlichen und kausalen Zusammenhängen in Daten wie sie z. B. in der Sprachverarbeitung, Ereignisverarbeitung, Biosequenzanalyse oder auch in Multimediadaten auftreten. Dabei wird aus beobachteten Ereignissen der aktuelle Systemzustand erkannt und zukünftige Zustände vorhergesagt, was sowohl möglich ist, wenn nur die Reihenfolge ihres Auftretens bekannt ist, als auch dann, wenn sie genaue Zeitstempel tragen.

Erfahrungsbasiertes Lernen
© Fraunhofer IIS

Als erfahrungsbasiertes Lernen bezeichnet man Methoden, die es einem System erlauben, sich selbst zu optimieren, indem es mit der Umwelt interagiert und deren Feedback auswertet, oder sich an veränderliche Umweltbedingungen dynamisch anpasst. Hierzu zählen die automatisierte Erzeugung von Modellen zur Bewertung und Optimierung von Geschäftsprozessen, Transportabläufen oder auch Robotersteuerungen in der industriellen Fertigung. 

© Fraunhofer IIS

Um künstliche Intelligenz sicher und zweckmäßig in der Praxis einsetzen zu können, muss maschinelles Lernen (ML) für den Nutzer nachvollziehbar sein. In vielen Bereichen, wie z.B. der medizinischen Entscheidungsfindung oder der Qualitätskontrolle in der Produktion, ist es wichtig, die Grundlagen zu verstehen, auf der das Modell Entscheidungen und Vorhersagen trifft, um Transparenz und Vertrauen zu schaffen. Methoden für verständliche und vertrauenswürdige KI werden am ADA Lovelace Center in der Kompetenzsäule Vertrauenswürdige KI erforscht, die zu einer menschenzentrierten KI für Anwender in Wirtschaft, Wissenschaft und Gesellschaft beiträgt.

© Fraunhofer IIS

Prozessbewusstes Lernen stellt das Bindeglied zwischen Process Mining, der datenbasierten Analyse und Modellierung von Prozessen, und Machine Learning dar. Im Fokus steht dabei die Vorhersage von Prozessabläufen, Prozesskennzahlen und Prozessauffälligkeiten. Dies wird durch eine Extrahierung von Prozesswissen aus Event Logs und deren Überführung in erklärbare Prognosemodelle ermöglicht. Hierdurch können Einflussfaktoren identifiziert und vorausschauend Handlungsoptionen zur Prozessverbesserung abgeleitet werden.

Mathematische Optimierung Illustration
© Fraunhofer IIS

Die mathematische Optimierung ist unverzichtbarer Bestandteil der modellbasierten Entscheidungsunterstützung, indem sie Planungslösungen in so unterschiedlichen Bereichen wie der Logistik, Energiesystemen, Mobilität, im Finanzwesen und für Gebäudeinfrastrukturen liefert, um nur wenige Beispiele zu nennen. Die umfangreiche bestehende Expertise wird in mehrere aussichtsreiche Richtungen, namentlich der Echtzeitplanung und -steuerung weiterentwickelt.

Semantik
© Fraunhofer IIS

Die Aufgabe der Semantik ist es, Daten und Datenstrukturen formal definiert, standardisiert, inhaltlich widerspruchsfrei und eindeutig zu beschreiben. So müssen bei Industrie 4.0 verschiedenste Entitäten (wie Sensoren, Produkte, Maschinen oder Transportsysteme) in der Lage sein, deren Eigenschaften, Fähigkeiten oder Zustände anderer Entitäten in der Wertschöpfungskette zu interpretieren.

Das könnte Sie auch interessieren

Active Learning

Beim aktiven Lernen wird die Kennzeichnung der informativsten Datenproben bevorzugt. Die Leistung der Heuristiken des aktiven Lernens hängt jedoch sowohl von der Struktur der zugrunde liegenden Modellarchitektur als auch von den Daten ab. In diesem Whitepaper erfahren Sie mehr über eine Policy, die die besten Entscheidungen aus mehreren Expertenheuristiken angesichts des aktuellen Stands des aktiven Lernprozesses reflektiert und darüber hinaus lernt, Proben auf eine komplementäre Weise auszuwählen, die die Expertenstrategien vereinheitlicht.

Optimierte Domänenanpassung

In diesem Whitepaper geht es um die Optimierung von maschinellen Lernmodellen (ML) bei der Anwendung von Daten aus ähnlichen Domänen. Es wird eine neue, zweistufige Domänenanpassung vorgestellt.  

Weiterbildungen am ADA Lovelace Center

Das ADA Lovelace Center for Analytics, Data and Applications bietet – gemeinsam mit seinen Kooperationspartnern – Weiterbildungsprogramme rund um Konzepte, Methoden und konkrete Anwendungen im Themenbereich Data Analytics und KI.

Hierzu werden Seminare mit den folgenden Schwerpunkten angeboten:

Maschinelles Lernen

Reinforcement Learning

Data Analytics für die Supply Chain

Erhalten Sie hier eine Übersicht über gängige Analytics-Methoden und ihre Anwendungsfälle im Supply Chain Management.