Few Labels Learning

Lernen mit wenig annotierten Daten

Few Labels Learning
© Fraunhofer IIS

Die bahnbrechenden Erfolge von künstlicher Intelligenz (KI) bei Aufgaben wie Spracherkennung, Objekterkennung oder maschineller Übersetzung sind u.a. auf die Verfügbarkeit von enorm großen, annotierten Datensätzen zurückzuführen. Annotierte Daten, auch gelabelte Daten genannt, enthalten die Label-Informationen, die die Bedeutung einzelner Datenpunkte ausmachen und sind essentiell für das Training von Machine Learning Modellen. In vielen realen Szenarien, besonders im Industrieumfeld, liegen zwar oftmals große Datenmengen vor, diese sind aber nicht oder nur wenig annotiert. Dieses Fehlen annotierter Trainingsdaten stellt eine der großen Hürden für die breite Anwendung von KI-Methoden im Industrieumfeld dar. Daher wird in der Kompetenzsäule »Few Labels Learning« das Lernen mit wenig annotierten Daten innerhalb von drei Schwerpunkten und verschiedenen Bereichen erforscht: Meta-Lernstrategien, Semi-supervised Learning und Datensynthetisierung.

Meta-Lernstrategien für Pathologie und Autonome Systeme

Im Rahmen der Umsetzung von »Meta Lernstrategien« unter anderem im »Bereich der bildgebenden Medizin« werden Methoden wie Few-Shot oder Transfer-Learning entwickelt und erforscht.

Gerade in der Medizin im Bereich der Gewebeklassifikation ist die Annotation von großen Datensätzen besonders schwierig und die Datensituation variiert oft von Krankenhaus zu Krankenhaus bzw. von Aufnahmegerät zu Aufnahmegerät. Daher eignen sich hierbei Verfahren des Few-Shot Learnings, wie beispielsweise Prototypical Network, um zwischen verschiedenen Anwendungen zu generalisieren. Methoden des Transfer Learnings, wobei Modelle auf vergleichbaren Datensätzen mit vielen annotierten Datenpunkten gewissermaßen vortrainiert werden, um sie dann auf die eigentliche Problemstellung anzuwenden, werden in diesem Kontext auch für die praktische Auswertung von medizinischen CTs verwendet.

Insgesamt werden in der Applikation »Robuste KI für Digitale Pathologie« Methoden des Few-Shot Learnings für die interaktive Gewebeklassifikation genutzt. Durch die Möglichkeit zur Interaktion mit den Modellen, können auch eventuelle, neue Gewebeklassen berücksichtigt werden.

In der Applikation »KI-Framework für Autonome Systeme« werden unter Anderem Meta-Lernstrategien für das autonome Fahren erforscht. Dabei werden Reinforcement-Learning Modelle in einer Simulationsumgebung vortrainiert und dann via Transfer-Learning für die Anwendung in der Realität angepasst. In einem weiteren Teilbereich dieses Projekts wird Continual Learning eingesetzt, um Modelle zu trainieren, die sich schnell und flexibel an neu auftretende Szenarien im autonomen Fahren anpassen können.  

Semi-supervised Learning im Zeitreihenkontext

Methoden des »Semi-supervised Learning« werden in Szenarien angewandt, in denen zwar viele Trainingsdaten vorhanden sind, von denen allerdings nur eine Minderheit auch annotiert ist. Diese Methoden lassen auch latente Informationen aus den nicht-annotierten Daten, wie z.B. Ähnlichkeiten, in das Modell-Training mit einfließen um performante Machine Learning Modelle zu trainieren.
In einem Teilprojekt werden Methoden aus dem Bereich der »Consistency Regularization« für die Anwendung auf sequentiellen Sensordaten erforscht und entwickelt. Weiterhin werden Semi-supervised Lernstrategien in einem Projekt im Bereich der Kamera-basierten, automatisierten Müllsortierung eingesetzt, um dabei das Problem weniger annotierter Trainingsdaten zu umgehen.  

Datensynthetisierung im Bereich der datengetriebenen Lokalisierung

Im Bereich der Lokalisierung ist die Annotation von Trainingsdaten technisch herausfordernd und zeitintensiv, daher gilt es hier die richtigen Methoden für die Unterstützung bei der Datenerhebung zu entwickeln.
In der Applikation »Datengetriebenen Lokalisierung« wird daher eine Messplattform zur effizienten Datenannotation durch Active Learning und unter Einbeziehung von Predictive Uncertainty entwickelt, um dem Anwender Messpunkte vorzuschlagen, die den größten Informationsgewinn erwarten lassen.
Die Generierung der Mess- bzw. Trainingsdaten bei der datengetriebenen Lokalisierung erfordert andererseits aber auch die Einbeziehung der statistischen Verteilung bzw. der Nicht-Linearitäten der Signalausbreitung in der Umgebung. Schon während der Datenannotationsphase wird daher auf eine Ungleichverteilung der Klassenmengen geachtet.
Durch Verfahren wie beispielsweise »SMOTE«, bei welchem entweder Trainingsdaten der überrepräsentierten Klasse verworfen oder aber zusätzliche Daten aus der unterrepräsentierten Klasse augmentiert werden, sollen solche Effekt ausgeglichen werden.

»ADA wills wissen« Podcast

In unserer neuen Podcast-Reihe »ADA wills wissen« befinden sich die Kompetenzsäulen-Verantwortlichen mit ADA im Gespräch und geben Einblick in ihre Forschungsschwerpunkte, Herausforderungen und Methoden. In dieser Folge hören Sie ADA mit Jann Goschenhofer, dem Experten für Few Labels Learning.

»ADA wills wissen« Podcast für Few Labels Learning mit Jann Goschenhofer

Die KI-Kompetenzsäulen des ADA Lovelace Centers

Automatisches Lernen
© Fraunhofer IIS

Das automatische und adaptive Lernen (AutoML) beschäftigt sich mit der Automatisierung des KI Prozesses und von besonders arbeitsintensiven, manuellen Aufgaben, die im Regelfall von Experten durchgeführt werden. So wird das Maschinelle Lernen zugänglicher und effizienter. AutoML deckt einen großen Bereich ab, der bei der Automatisierung der Merkmalserkennung und -auswahl für gegebene Datensätze sowie der Modellsuche und -optimierung beginnt, über deren automatisierte Bewertung reicht und bis hin zur adaptiven Anpassung der Modelle durch Trainingsdaten und Systemfeedback geht.  

Sequenzbasiertes Lernen
© Fraunhofer IIS

Sequenzbasiertes Lernen beschäftigt sich mit zeitlichen und kausalen Zusammenhängen in Daten wie sie z. B. in der Sprachverarbeitung, Ereignisverarbeitung, Biosequenzanalyse oder auch in Multimediadaten auftreten. Dabei wird aus beobachteten Ereignissen der aktuelle Systemzustand erkannt und zukünftige Zustände vorhergesagt, was sowohl möglich ist, wenn nur die Reihenfolge ihres Auftretens bekannt ist, als auch dann, wenn sie genaue Zeitstempel tragen.

Erfahrungsbasiertes Lernen
© Fraunhofer IIS

Als erfahrungsbasiertes Lernen bezeichnet man Methoden, die es einem System erlauben, sich selbst zu optimieren, indem es mit der Umwelt interagiert und deren Feedback auswertet, oder sich an veränderliche Umweltbedingungen dynamisch anpasst. Hierzu zählen die automatisierte Erzeugung von Modellen zur Bewertung und Optimierung von Geschäftsprozessen, Transportabläufen oder auch Robotersteuerungen in der industriellen Fertigung. 

© Fraunhofer IIS

Data-centric AI (DCAI) bietet eine neuartige, ergänzende Perspektive auf die KI-Modellbildung. Der Schwerpunkt wird dabei von der Modellbildung auf die Kuratierung hochwertiger, einheitlich annotierter Trainingsdatensätze verlagert. Die zugrundeliegende Erkenntnis ist, dass bei vielen KI-Projekten die Hebelwirkung zur Verbesserung der Modellleistung in der Kuratierung der verwendeten Trainingsdaten liegt.

Um künstliche Intelligenz sicher und zweckmäßig in der Praxis einsetzen zu können, muss maschinelles Lernen (ML) für den Nutzer nachvollziehbar sein. In vielen Bereichen, wie z.B. der medizinischen Entscheidungsfindung oder der Qualitätskontrolle in der Produktion, ist es wichtig, die Grundlagen zu verstehen, auf der das Modell Entscheidungen und Vorhersagen trifft, um Transparenz und Vertrauen zu schaffen. Methoden für verständliche und vertrauenswürdige KI werden am ADA Lovelace Center in der Kompetenzsäule »Nachvollziehbare und vertrauenswürdige KI« erforscht, die zu einer menschenzentrierten KI für Anwender in Wirtschaft, Wissenschaft und Gesellschaft beiträgt.

Prozessbewusstes Lernen stellt das Bindeglied zwischen Process Mining, der datenbasierten Analyse und Modellierung von Prozessen, und Machine Learning dar. Im Fokus steht dabei die Vorhersage von Prozessabläufen, Prozesskennzahlen und Prozessauffälligkeiten. Dies wird durch eine Extrahierung von Prozesswissen aus Event Logs und deren Überführung in erklärbare Prognosemodelle ermöglicht. Hierdurch können Einflussfaktoren identifiziert und vorausschauend Handlungsoptionen zur Prozessverbesserung abgeleitet werden.

Mathematische Optimierung Illustration
© Fraunhofer IIS

Die mathematische Optimierung ist unverzichtbarer Bestandteil der modellbasierten Entscheidungsunterstützung, indem sie Planungslösungen in so unterschiedlichen Bereichen wie der Logistik, Energiesystemen, Mobilität, im Finanzwesen und für Gebäudeinfrastrukturen liefert, um nur wenige Beispiele zu nennen. Die umfangreiche bestehende Expertise wird in mehrere aussichtsreiche Richtungen, namentlich der Echtzeitplanung und -steuerung weiterentwickelt.

Semantik
© Fraunhofer IIS

Die Aufgabe der Semantik ist es, Daten und Datenstrukturen formal definiert, standardisiert, inhaltlich widerspruchsfrei und eindeutig zu beschreiben. So müssen bei Industrie 4.0 verschiedenste Entitäten (wie Sensoren, Produkte, Maschinen oder Transportsysteme) in der Lage sein, deren Eigenschaften, Fähigkeiten oder Zustände anderer Entitäten in der Wertschöpfungskette zu interpretieren.

Das könnte Sie auch interessieren

Optimierte Domänenanpassung

In diesem Whitepaper geht es um die Optimierung von maschinellen Lernmodellen (ML) bei der Anwendung von Daten aus ähnlichen Domänen. Es wird eine neue, zweistufige Domänenanpassung vorgestellt.  

Active Learning

Beim aktiven Lernen wird die Kennzeichnung der informativsten Datenproben bevorzugt. Die Leistung der Heuristiken des aktiven Lernens hängt jedoch sowohl von der Struktur der zugrunde liegenden Modellarchitektur als auch von den Daten ab. In diesem Whitepaper erfahren Sie mehr über eine Policy, die die besten Entscheidungen aus mehreren Expertenheuristiken angesichts des aktuellen Stands des aktiven Lernprozesses reflektiert und darüber hinaus lernt, Proben auf eine komplementäre Weise auszuwählen, die die Expertenstrategien vereinheitlicht.

Weiterbildungen am ADA Lovelace Center

Das ADA Lovelace Center for Analytics, Data and Applications bietet – gemeinsam mit seinen Kooperationspartnern – Weiterbildungsprogramme rund um Konzepte, Methoden und konkrete Anwendungen im Themenbereich Data Analytics und KI.

Hierzu werden Seminare mit den folgenden Schwerpunkten angeboten:

Maschinelles Lernen

Reinforcement Learning