Erfahrungsbasiertes Lernen

Selbstlernende und selbstadaptive Systeme ohne Supervision

Erfahrungsbasiertes Lernen
© Fraunhofer IIS

Bahnbrechende Anwendungen der Künstlichen Intelligenz (KI) in vielen Bereichen der Forschung und des Geschäftsalltags haben die letzten Jahre geprägt. Neben der Entwicklung neuer Algorithmen und der Zunahme von Rechenressourcen war der Hauptantrieb für diese Erfolge die Verfügbarkeit riesiger Mengen an annotierten Daten. Moderne KI-Algorithmen versuchen, Muster in statistischen Daten zu entdecken oder Modelle zu konstruieren, die in der Lage sind, den »richtigen« Output für einen vorhandenen Datensatz zu generieren.

Um wirklich autonome Systeme zu entwickeln, die in der Lage sind, in der realen Welt zu operieren und mit dem Menschen zu interagieren, wie z. B. autonome Fahrzeuge, Paketlieferdrohnen oder sogar intelligente Produktionssysteme, sind andere Algorithmen als in bisherigen Paradigmen des maschinellen Lernens notwendig.

Die Anforderungen an die autonomen Systeme unterscheiden sich: sie müssen ohne Aufsicht operieren, eine Reihe von Entscheidungen treffen, um ein Ziel zu erreichen und in der Lage sein, sich an unvorhergesehene Situationen aufgrund der Komplexität der Welt anzupassen.
Erfahrungsbasiertes Lernen ist ein zentraler Baustein, um solche autonomen Systeme zu gestalten. Dabei wird das Verhalten des Systems nicht durch ein statisches Regelwerk oder statisches maschinelles Lernen vordefiniert. Es greift also nicht auf vorhandene annotierte oder auch nicht-annotierte Daten zurück, sondern sammelt diese Daten durch Interaktion mit der Umwelt selbst und verbessert sein Verhalten ständig weiter.

Das Teilgebiet des Reinforcement Learning ermöglicht das Training von Agenten, die durch die Interaktion mit der Umgebung in einem Trial-and-Error-Prozess eine Strategie (auch Controller oder Policy genannt) entdecken, die ihre Leistung verbessert, und liefert damit die theoretische Grundlage und ein großes Ökosystem von algorithmischen Ansätzen für das erfahrungsbasierte Training von autonomen Systemen.

Der Transfer von Ideen, Algorithmen und Erfolgsgeschichten der Reinforcement Learning Forschung in die industrielle Anwendung autonomer Systeme ist das Ziel der Arbeit in der Kompetenzsäule »Erfahrungsbasiertes Lernens«. Um dies zu erreichen, konzentrieren wir uns auf Ansätze, die zu verlässlichem Reinforcement Learning führen.

Sicherheitsbewusstes Reinforcement Learning

Eine der größten Stärken des Reinforcement Learning ist die Fähigkeit, qualitativ hochwertige und kreative Lösungen für ein komplexes Problem zu erlernen. Für viele reale Anwendungen ist eine leistungsstarke Lösung allein jedoch nicht ausreichend, da in vielen Situationen Systeme durch transparente und sicherheitsbewusste Mechanismen gesteuert werden müssen. Ein typisches Beispiel hierfür sind autonome Fahrzeuge, bei denen der Agent in der Steuerung nicht nur das gewünschten Ziel erreichen muss, sondern auch die Treibstoffeffizienz und den Fahrgastkomfort beachten muss und neben all diesen Anforderungen zusätzlich die Wahrscheinlichkeit von Kollisionen minimieren sollte.

Um diesen sicherheitsrelevanten Anforderungen gerecht zu werden, werden Algorithmen verwendet, die sowohl einen Risikoschätzer entweder aus verfügbaren Daten oder mittels der Interaktion zwischen dem Agenten und der Umwelt lernen, als auch einen Trade-off-Faktor zwischen dem Wert des zu erreichenden Ziels und dem Risiko einer bestimmten Strategie, um das Ziel zu erreichen.

Im Rahmen des Projektes wurde dieser Ansatz von der Applikation »KI-Framework für autonome Systeme« genutzt, um einem autonomen Fahragenten beizubringen, risikosensitive Entscheidungen auf hoher Ebene sicher durchzuführen, wie z. B. Zusammenführen im Kreisverkehr, ungeschütztes Abbiegen und Spurwechsel. Darüber hinaus wurde in der Applikation »Effiziente Suche und Repräsentation von Trackingdaten« das Risiko, den Ball in einem Fußballspiel zu verlieren, anhand von Offline-Daten aus realen Spielen abgeschätzt und ein sicherheitsbewusster Reinforcement Learning-Agent trainiert, um ein 11 gegen 11 Fußballspiel in der Simulation zu spielen.

Eine zusätzliche Ebene der Sicherheit und Robustheit kann durch die Anwendung von hierarchischen Reinforcement Learning Ansätzen erreicht werden. Anstelle eines Algorithmus, der lernt, eine Aufgabe direkt zu lösen, sind Low-Level-Controller/Policies für die Ausführung grundlegender Funktionen zuständig. Higher-Level-Policies lernen, die komplexe Aufgabe durch Wiederverwendung, Kombination und Sequenzierung der verfügbaren Low-Level-Policies zu lösen. Die Low-Level-Komponenten können von Hand entwickelt und individuell trainiert werden oder sogar eine fortgeschrittene Steuerungslogik wie Model Predictive Controllers enthalten. Dieser Ansatz wurde von der Anwendung »KI-Framework für autonome Systeme« genutzt, um robustere und interpretierbare Strategien für autonomes Fahren zu erlernen. Hier stehen Low-Level-Strategien wie »der Spur folgen«, »auf die linke/rechte Spur wechseln« oder »die Geschwindigkeit erhöhen/verringern« zur Verfügung und ein koordinierender Agent wird darauf trainiert, diese zu nutzen, um sicher durch den Verkehr zu einem Zielpunkt zu navigieren.  

Imitationslernen

Das Paradigma des Verstärkungslernens basiert auf der Verfügbarkeit einer Belohnungsfunktion, die angibt, wie vorteilhaft oder nachteilig die Entscheidungen sind, die der Agent in jedem Schritt getroffen hat. Auf der Grundlage dieser Informationen kann der Agent schrittweise lernen, seine Leistungen zu verbessern und eine bestimmte Aufgabe effizienter zu lösen. In einigen Fällen kann es jedoch schwierig sein, eine geeignete Belohnungsfunktion zu entwickeln. Wie kann beispielsweise die »interne« Belohnungsfunktion des Fahrers eines Autos quantifiziert werden, die zwischen Komfort, Kraftstoff-/Kosteneffizienz und dem Erreichen eines Ziels in möglichst kurzer Zeit abwägt?

In solchen Situationen kann das Imitationslernen eingesetzt werden. Hier haben wir entweder Beispiele eines Experten, der die betreffende Aufgabe ausführt (im Fall des autonomen Fahrens stehen beispielsweise aufgezeichnete Daten von mehreren menschlichen Fahrern zur Verfügung), und der Agent lernt, deren Strategie zu »imitieren«, oder es wird ein »Lehrer/Schüler«-Setting definiert, bei der wir den Experten interaktiv direkt nach den besten Aktionen in bestimmten Situationen befragen können, um den Agenten schrittweise zu trainieren, damit er die Leistung des Experten erreicht.

Imitationslernen kann auch als Prozess zur Interpretation der Entscheidungen des trainierten Agenten genutzt werden. Dabei wird Imitationslernen genutzt, um das Verhalten eines trainierten Black-Box-Agenten (z. B. eines neuronalen Netzes) zu einem binären Entscheidungsbaum zu destillieren, wie in der »Lehrer/Schüler«-Situation. Auf diese Weise hat der generierte Entscheidungsbaum dieselbe Leistung wie die ursprüngliche Strategie, kann aber als eine Reihe von »Wenn-dann-wenn«-Regeln interpretiert werden. Dieser Ansatz wird von der Anwendung »KI-Framework für autonome Systeme« verwendet, bei der High-Level-Verhaltensrichtlinien für das Fahren (z. B. die Entscheidung, wann man die Spur wechselt oder sich in den Verkehr einreiht) mit Hilfe von Reinforcement Learning trainiert und dann in binäre Entscheidungsbäume extrahiert werden. Diese Bäume können entweder manuell von einem Sicherheitsingenieur oder mit automatisierten formalen Verifikationsmethoden verifiziert werden.

Analytics: KI-Kompetenzsäulen im Fokus

Wir forschen im ADA Lovelace Center an neun unterschiedlichen Kompetenzsäulen der KI und binden dazu vielfältige nationale und internationale Wissenschaftspartner ein. Das Methodenspektrum reicht von semantischen Datenmodellen und dem Lernen mit wenigen, annotierten Daten über automatisches und erklärbares Lernen bis hin zu maschinellem Lernen und mathematischer Optimierung.

Die KI-Kompetenzsäulen des ADA Lovelace Centers

Automatisches Lernen
© Fraunhofer IIS

Das automatische und adaptive Lernen (AutoML) beschäftigt sich mit der Automatisierung des KI Prozesses und von besonders arbeitsintensiven, manuellen Aufgaben, die im Regelfall von Experten durchgeführt werden. So wird das Maschinelle Lernen zugänglicher und effizienter. AutoML deckt einen großen Bereich ab, der bei der Automatisierung der Merkmalserkennung und -auswahl für gegebene Datensätze sowie der Modellsuche und -optimierung beginnt, über deren automatisierte Bewertung reicht und bis hin zur adaptiven Anpassung der Modelle durch Trainingsdaten und Systemfeedback geht.  

Sequenzbasiertes Lernen
© Fraunhofer IIS

Sequenzbasiertes Lernen beschäftigt sich mit zeitlichen und kausalen Zusammenhängen in Daten wie sie z. B. in der Sprachverarbeitung, Ereignisverarbeitung, Biosequenzanalyse oder auch in Multimediadaten auftreten. Dabei wird aus beobachteten Ereignissen der aktuelle Systemzustand erkannt und zukünftige Zustände vorhergesagt, was sowohl möglich ist, wenn nur die Reihenfolge ihres Auftretens bekannt ist, als auch dann, wenn sie genaue Zeitstempel tragen.

Erfahrungsbasiertes Lernen
© Fraunhofer IIS

Als erfahrungsbasiertes Lernen bezeichnet man Methoden, die es einem System erlauben, sich selbst zu optimieren, indem es mit der Umwelt interagiert und deren Feedback auswertet, oder sich an veränderliche Umweltbedingungen dynamisch anpasst. Hierzu zählen die automatisierte Erzeugung von Modellen zur Bewertung und Optimierung von Geschäftsprozessen, Transportabläufen oder auch Robotersteuerungen in der industriellen Fertigung. 

Few Labels Learning
© Fraunhofer IIS

Die bahnbrechenden Erfolge der KI bei Aufgaben wie Spracherkennung, Objekterkennung oder maschineller Übersetzung sind u.a. auf die Verfügbarkeit von enorm großen, annotierten Datensätzen zurückzuführen. Allerdings ist diese in vielen realen Szenarien, besonders im Industrieumfeld, begrenzt. Daher erforschen wir das Lernen mit wenigen annotierten Daten im Kontext von Techniken des unüberwachten, semi-überwachten- und des Transfer-Lernens.

 

Das digitale Datenvolumen (sog. »Big Data«) wächst seit einigen Jahren ungebremst. Bei der Wissensgenerierung müssen die erzielten Ergebnisse und Vorhersagen den Anwendern in geeigneter Weise plausibel und transparent gemacht werden. Dieser Aspekt wird im ADA Lovelace Center unter dem Stichwort erklärbares Lernen erforscht, und sorgt dafür, die Akzeptanz der künstlichen Intelligenz bei Anwendern in Wirtschaft, Wissenschaft und Gesellschaft zu erhöhen.

 

Prozessbewusstes Lernen stellt das Bindeglied zwischen der Modellierung und Analyse von Prozessen und dem Data Mining dar. Im Fokus steht dabei die Prozesserkennung, Konformitätsprüfung und Prozessverbesserung auf Daten in Form von Ereignisprotokollen. Sie dient dem Vergleich von Soll- und Ist-Zuständen, z.B. bei Geschäftsprozessen in Form von Workflow-Management-Systemen (WMS) oder Enterprise-Resource-Planning-Systemen (ERP).

Mathematische Optimierung Illustration
© Fraunhofer IIS

Die mathematische Optimierung ist unverzichtbarer Bestandteil der modellbasierten Entscheidungsunterstützung, indem sie Planungslösungen in so unterschiedlichen Bereichen wie der Logistik, Energiesystemen, Mobilität, im Finanzwesen und für Gebäudeinfrastrukturen liefert, um nur wenige Beispiele zu nennen. Die umfangreiche bestehende Expertise wird in mehrere aussichtsreiche Richtungen, namentlich der Echtzeitplanung und -steuerung weiterentwickelt.

Die Aufgabe der Semantik ist es, Daten und Datenstrukturen formal definiert, standardisiert, inhaltlich widerspruchsfrei und eindeutig zu beschreiben. So müssen bei Industrie 4.0 verschiedenste Entitäten (wie Sensoren, Produkte, Maschinen oder Transportsysteme) in der Lage sein, deren Eigenschaften, Fähigkeiten oder Zustände anderer Entitäten in der Wertschöpfungskette zu interpretieren.

Few Data Learning beschäftigt sich mit der Aufbereitung und Vervollständigung von Daten sowie der Erzeugung einer ausreichenden Menge an Datensätzen, z. B. KI-Anwendungen auf Materialstammdaten in der Industrie. Das umfasst die Aufbereitung fehlerhafter Datensätze und den Einsatz von Simulationstechniken um fehlende Daten zu erzeugen.

Das könnte Sie auch interessieren

Weiterbildungen am ADA Lovelace Center

Das ADA Lovelace Center for Analytics, Data and Applications bietet – gemeinsam mit seinen Kooperationspartnern – Weiterbildungsprogramme rund um Konzepte, Methoden und konkrete Anwendungen im Themenbereich Data Analytics und KI.

Hierzu werden Seminare mit den folgenden Schwerpunkten angeboten:

Maschinelles Lernen

Reinforcement Learning