Few Data Learning

Anwendung von Machine Learning Methoden trotz schlechter Datenbasis

Durch Digitalisierung und die stetige Entwicklung in der Erforschung von Künstlicher Intelligenz (KI), insbesondere im Bereich Machine Learning (ML), profitieren derzeit viele Unternehmen, indem sie neue datengetriebene Geschäftsmodelle entwickeln oder Prozesskosten (z. B. in der Fertigung) senken können. Ein wichtiger Baustein für diese KI-Entwicklung ist das Vorhandensein einer großen Menge von qualitativ hochwertigen Daten.

Doch nicht immer sind die Daten in einer ausreichenden Menge vorhanden, vollständig, fehlerfrei oder aktuell, sodass sie für ML-Anwendungen nicht wirklich sinnvoll genutzt werden können. Durch Methoden der Datenerweiterung (Data Augmentation – kurz: DA) ist es möglich, die Datenqualität und -quantität signifikant zu verbessern. Dadurch können ML Modelle in manchen Anwendungsfällen erstmalig eingesetzt oder die Ergebnisse bestehender ML Modelle optimiert werden.

Few Data Learning kommt in Anwendungsbereichen zum Einsatz, in denen eine sehr kleine Datenbasis vorliegt: beispielsweise im Bereich der Bilderkennung, vor allem in der Medizintechnik zur Diagnose von Gewebeanomalien, für Computer Vision Anwendungen in der Bild- und Videoproduktion, oder für Prognose- und Optimierungsanwendungen in der Produktion und Logistik.

Bestehende Few Data Learning Methoden wurden für jeweils sehr spezifische Datenprobleme entwickelt und verfolgen unterschiedliche Zielsetzungen. Daher ist die Herausforderung in Forschung und Anwendung, für einen konkreten Anwendungsfall die richtigen Few Data Learning Verfahren auszuwählen, miteinander zu kombinieren und weiterzuentwickeln.

Innerhalb des ADA Lovelace Centers ist die Arbeit der Kompetenzsäule Few Data Learning eng verknüpft mit der Säule Few Labels Learning, in welcher die Annotation großer Datensätze im Fokus steht. Denn in der Praxis treten beide Probleme häufig zusammen auf: Wenn Daten fehlen, fehlerhaft sind oder nicht in ausreichender Menge vorhanden sind, fehlen häufig auch die dazugehörigen Annotationen. Daher werden Verfahren aus den beiden Kompetenzsäulen »Few Data Learning« und »Few Labels Learning« oft miteinander kombiniert.

Datenerweiterung mittels Datenaugmentierung

Beim klassischen maschinellen Lernen, werden möglichst viele Daten als Trainingsdaten benötigt, damit das Modell lernt die entsprechende Klassifikations- oder Regressionsaufgabe zu lösen und auf ungesehenen Testdaten in der Evaluation gute Ergebnisse liefert. Im Gegensatz dazu bezeichnet Few Data Learning eine Reihe von Machine Learning Verfahren bei denen die Datenbasis sehr klein ist und hat ihren Ursprung in der Statistik.

Um die Datenbasis zu erweitern, wird mit Datenaugmentierung gearbeitet. Dafür sind verschiedene Methoden einsetzbar, es werden beispielsweise die wenigen bestehenden Daten leicht abgeändert oder mit Modellen neue Datenpunkte erzeugt. Die Augmentierungsverfahren hängen von der Art der Daten und der Problemstellung ab, meist kommen mehrere Methoden in Kombination zum Einsatz.

Die Schwerpunkte der Forschung innerhalb der Kompetenzsäule Few Data Learning liegen auf:

  • Ausnutzung von Ähnlichkeiten in niedrig-dimensionalen Datensätzen (z. B. Interpolation, Imputation, Clustering) zur Ergänzung fehlender Daten
  • Erzeugung synthetischer Daten durch Redundanzreduktion in hoch-dimensionalen Datensätzen (z. B. Autoencoder, PCA, dynamische Faktormodelle)
  • Simulation von Prozessen und Daten (z. B. in der Produktion mit AnyLogic sowie SimPlan oder durch physikalische Modelle)

Der Unterschied zwischen ähnlichkeits- und redundanzbasierten DA Methoden ist in der folgenden Grafik illustriert:
 

Datenerweiterung mittels Datenaugmentierung
© Fraunhofer IIS

Wenn eine Zeitreihe (hier Nachfrage in Stück nach einem Produkt) mit wenigen Datenpunkten zur ML Modellierung erweitert werden soll, kann nach ähnlichen bereits vorhandene Zeitreihen gesucht werden. Im Anschluss werden diese Datenpunkte zu Erweiterung der kurzen Zeitreihe direkt übernommen. Die Suche nach ähnlichen Daten erfolgt beispielsweise mittels Clustering Verfahren.

Falls eine solche direkte Zuordnung zu ähnlichen Zeitreihen nicht möglich, schwierig oder nicht gewollt ist, kann stattdessen aus mehreren verfügbaren Zeitreihen eine synthetische Datenreihe neu generiert werden welche die Informationen der vielen Datenreihen repräsentiert. Dabei werden Redundanzen in einem hochdimensionalen Datensatz ausgenutzt, um eine niedrigdimensionale Repräsentation des gesamten Datensatzes zu generieren.

In manchen Anwendungen kann es sogar vorkommen, dass keinerlei Daten zur Analyse vorliegen. In diesem Fall können mit Simulationsmodellen komplett synthetische Daten generiert werden. Beispielsweise in der Produktion: Wenn eine bestehende Fertigung auf ein komplett neues Produkt umgestellt werden soll, gibt es dafür noch keine Erfahrungswerte bzw. Daten. In dem Fall kann auf Basis der bestehenden Daten und der Prozessmodellierung eine Simulationsumgebung erstellt werden, welche für die neuen Produkte Daten simuliert, um diese anschließend mittels ML Modellen zu analysieren. Dabei ist es besonders wichtig, aber auch schwierig, möglichst realistische Daten zu simulieren, welche bestimmte Charakteristika (z. B. Produktionsfehler oder Maschinenstillstände) nicht über- oder unterschätzt, damit das ML Modell auch im laufenden Betrieb mit realen Daten gute Ergebnisse liefern kann.

Datenerweiterung in der Digitalen Pathologie

In der Applikation Robuste KI für Digitale Pathologie werden KI-Methoden entwickelt um Darmkrebs auf CT-Gewebescans automatisiert zu erkennen. Dabei stehen oft nur sehr wenige Daten zur Verfügung. Daher wurden im Rahmen der Kompetenzsäule Few Data Learning verschiedene Verfahren der Datenaugmentierung anhand einer Multi-Scanner Datenbank miteinander verglichen. Ziel ist es eine robuste Gewebeanalyse in Darmschnitten von Adenokarzinomen zu gewährleisten. Dabei wurden verschiedene konvolutionale Netzwerk-Architekturen hinsichtlich ihrer Ausführungsgeschwindigkeit und Robustheit auf einer Multi-Scanner Datenbank verglichen. Die Robustheit wird dabei durch Anwendung von Datenaugementierung, speziell Farbaugmentierungen, erzielt.

Generierung einer optimierten Datenbasis für Diagnosen in Funksystemen

In der Applikation KI-gestütze Diagnosen in Funksystemen wird eine Toolchain zur automatisierten Erkennung und Vorhersage von Übertragungsstörungen in drahtlosen Netzwerken entwickelt. Dabei wird ein Beitrag zur Verbesserung von Fehleranalysewerkzeugen in Funknetzwerken, unter Verwendung von Spektrumanalysatoren geleistet. Mithilfe von auf maschinellem Lernen basierenden Bildverarbeitungsalgorithmen werden einzelne Frames verschiedener Funktechnologien sowie Kollisionen zwischen Frames in Echtzeit erkannt und entsprechend ihres Kommunikationsstandards klassifiziert. Zur Verbesserung der Datenbasis wurden die mit einem Vektorsignalgenerator erzeugten Funksignale in einer eigens entwickelten Simulations-Pipeline weiterverarbeitet und rekombiniert. Über diesen Ansatz konnte auf einen umfangreichen gelabelten Trainingsdatensatz zurückgegriffen werden.

Clusteringverfahren für die Ersatzteilprognose

In der Applikation Selbstlernende adaptive logistische Netzwerke wurde ein Verfahren entwickelt, welches auf Basis von unvollständigen Verbrauchsdaten von Ersatzteilen in der Logistik mittels Clustering-Verfahren Ähnlichkeiten in einem großen Datensatz erkennt und verfügbare Verbrauchsdaten über einen längeren Zeithorizont zur Prognose von neuen Ersatzteilen (ohne lange Datenhistorie) nutzt.

Analytics: KI-Kompetenzsäulen im Fokus

Wir forschen im ADA Lovelace Center an neun unterschiedlichen Kompetenzsäulen der KI und binden dazu vielfältige nationale und internationale Wissenschaftspartner ein. Das Methodenspektrum reicht von semantischen Datenmodellen und dem Lernen mit wenigen, annotierten Daten über automatisches und erklärbares Lernen bis hin zu maschinellem Lernen und mathematischer Optimierung.

Die KI-Kompetenzsäulen des ADA Lovelace Centers

Automatisches Lernen
© Fraunhofer IIS

Das automatische und adaptive Lernen (AutoML) beschäftigt sich mit der Automatisierung des KI Prozesses und von besonders arbeitsintensiven, manuellen Aufgaben, die im Regelfall von Experten durchgeführt werden. So wird das Maschinelle Lernen zugänglicher und effizienter. AutoML deckt einen großen Bereich ab, der bei der Automatisierung der Merkmalserkennung und -auswahl für gegebene Datensätze sowie der Modellsuche und -optimierung beginnt, über deren automatisierte Bewertung reicht und bis hin zur adaptiven Anpassung der Modelle durch Trainingsdaten und Systemfeedback geht.  

Sequenzbasiertes Lernen
© Fraunhofer IIS

Sequenzbasiertes Lernen beschäftigt sich mit zeitlichen und kausalen Zusammenhängen in Daten wie sie z. B. in der Sprachverarbeitung, Ereignisverarbeitung, Biosequenzanalyse oder auch in Multimediadaten auftreten. Dabei wird aus beobachteten Ereignissen der aktuelle Systemzustand erkannt und zukünftige Zustände vorhergesagt, was sowohl möglich ist, wenn nur die Reihenfolge ihres Auftretens bekannt ist, als auch dann, wenn sie genaue Zeitstempel tragen.

Erfahrungsbasiertes Lernen
© Fraunhofer IIS

Als erfahrungsbasiertes Lernen bezeichnet man Methoden, die es einem System erlauben, sich selbst zu optimieren, indem es mit der Umwelt interagiert und deren Feedback auswertet, oder sich an veränderliche Umweltbedingungen dynamisch anpasst. Hierzu zählen die automatisierte Erzeugung von Modellen zur Bewertung und Optimierung von Geschäftsprozessen, Transportabläufen oder auch Robotersteuerungen in der industriellen Fertigung. 

Few Labels Learning
© Fraunhofer IIS

Die bahnbrechenden Erfolge der KI bei Aufgaben wie Spracherkennung, Objekterkennung oder maschineller Übersetzung sind u.a. auf die Verfügbarkeit von enorm großen, annotierten Datensätzen zurückzuführen. Allerdings ist diese in vielen realen Szenarien, besonders im Industrieumfeld, begrenzt. Daher erforschen wir das Lernen mit wenigen annotierten Daten im Kontext von Techniken des unüberwachten, semi-überwachten- und des Transfer-Lernens.

 

Das digitale Datenvolumen (sog. »Big Data«) wächst seit einigen Jahren ungebremst. Bei der Wissensgenerierung müssen die erzielten Ergebnisse und Vorhersagen den Anwendern in geeigneter Weise plausibel und transparent gemacht werden. Dieser Aspekt wird im ADA Lovelace Center unter dem Stichwort erklärbares Lernen erforscht, und sorgt dafür, die Akzeptanz der künstlichen Intelligenz bei Anwendern in Wirtschaft, Wissenschaft und Gesellschaft zu erhöhen.

 

Prozessbewusstes Lernen stellt das Bindeglied zwischen der Modellierung und Analyse von Prozessen und dem Data Mining dar. Im Fokus steht dabei die Prozesserkennung, Konformitätsprüfung und Prozessverbesserung auf Daten in Form von Ereignisprotokollen. Sie dient dem Vergleich von Soll- und Ist-Zuständen, z.B. bei Geschäftsprozessen in Form von Workflow-Management-Systemen (WMS) oder Enterprise-Resource-Planning-Systemen (ERP).

Mathematische Optimierung Illustration
© Fraunhofer IIS

Die mathematische Optimierung ist unverzichtbarer Bestandteil der modellbasierten Entscheidungsunterstützung, indem sie Planungslösungen in so unterschiedlichen Bereichen wie der Logistik, Energiesystemen, Mobilität, im Finanzwesen und für Gebäudeinfrastrukturen liefert, um nur wenige Beispiele zu nennen. Die umfangreiche bestehende Expertise wird in mehrere aussichtsreiche Richtungen, namentlich der Echtzeitplanung und -steuerung weiterentwickelt.

Die Aufgabe der Semantik ist es, Daten und Datenstrukturen formal definiert, standardisiert, inhaltlich widerspruchsfrei und eindeutig zu beschreiben. So müssen bei Industrie 4.0 verschiedenste Entitäten (wie Sensoren, Produkte, Maschinen oder Transportsysteme) in der Lage sein, deren Eigenschaften, Fähigkeiten oder Zustände anderer Entitäten in der Wertschöpfungskette zu interpretieren.

Few Data Learning beschäftigt sich mit der Aufbereitung und Vervollständigung von Daten sowie der Erzeugung einer ausreichenden Menge an Datensätzen, z. B. KI-Anwendungen auf Materialstammdaten in der Industrie. Das umfasst die Aufbereitung fehlerhafter Datensätze und den Einsatz von Simulationstechniken um fehlende Daten zu erzeugen.

Das könnte Sie auch interessieren

Data Analytics für die Supply Chain

Erhalten Sie hier eine Übersicht über gängige Analytics-Methoden und ihre Anwendungsfälle im Supply Chain Management.

Weiterbildungen am ADA Lovelace Center

Das ADA Lovelace Center for Analytics, Data and Applications bietet – gemeinsam mit seinen Kooperationspartnern – Weiterbildungsprogramme rund um Konzepte, Methoden und konkrete Anwendungen im Themenbereich Data Analytics und KI.

Hierzu werden Seminare mit den folgenden Schwerpunkten angeboten:

Maschinelles Lernen

Reinforcement Learning

Deep Learning and Computer Vision