Erfahrungsbasiertes Lernen

Bahnbrechende Anwendungen der Künstlichen Intelligenz (KI) in vielen Bereichen der Forschung und des Geschäftsalltags haben die letzten Jahre geprägt. Neben der Entwicklung neuer Algorithmen und der Zunahme von Rechenressourcen war der Hauptantrieb für diese Erfolge die Verfügbarkeit riesiger Mengen an annotierten Daten. Moderne KI-Algorithmen versuchen, Muster in statistischen Daten zu entdecken oder Modelle zu konstruieren, die in der Lage sind, den »richtigen« Output für einen vorhandenen Datensatz zu generieren.

Um wirklich autonome Systeme zu entwickeln, die in der Lage sind, in der realen Welt zu operieren und mit dem Menschen zu interagieren, wie z. B. autonome Fahrzeuge, Paketlieferdrohnen oder sogar intelligente Produktionssysteme, sind andere Algorithmen als in bisherigen Paradigmen des maschinellen Lernens notwendig.

Die Anforderungen an die autonomen Systeme unterscheiden sich: sie müssen ohne Aufsicht operieren, eine Reihe von Entscheidungen treffen, um ein Ziel zu erreichen und in der Lage sein, sich an unvorhergesehene Situationen aufgrund der Komplexität der Welt anzupassen.
Erfahrungsbasiertes Lernen ist ein zentraler Baustein, um solche autonomen Systeme zu gestalten. Dabei wird das Verhalten des Systems nicht durch ein statisches Regelwerk oder statisches maschinelles Lernen vordefiniert. Es greift also nicht auf vorhandene annotierte oder auch nicht-annotierte Daten zurück, sondern sammelt diese Daten durch Interaktion mit der Umwelt selbst und verbessert sein Verhalten ständig weiter.

Das Teilgebiet des Reinforcement Learning ermöglicht das Training von Agenten, die durch die Interaktion mit der Umgebung in einem Trial-and-Error-Prozess eine Strategie (auch Controller oder Policy genannt) entdecken, die ihre Leistung verbessert, und liefert damit die theoretische Grundlage und ein großes Ökosystem von algorithmischen Ansätzen für das erfahrungsbasierte Training von autonomen Systemen.

Der Transfer von Ideen, Algorithmen und Erfolgsgeschichten der Reinforcement Learning Forschung in die industrielle Anwendung autonomer Systeme ist das Ziel der Arbeit in der Kompetenzsäule »Erfahrungsbasiertes Lernens«. Um dies zu erreichen, konzentrieren wir uns auf Ansätze, die zu verlässlichem Reinforcement Learning führen.

Sicherheitsbewusstes Reinforcement Learning

Eine der größten Stärken des Reinforcement Learning ist die Fähigkeit, qualitativ hochwertige und kreative Lösungen für ein komplexes Problem zu erlernen. Für viele reale Anwendungen ist eine leistungsstarke Lösung allein jedoch nicht ausreichend, da in vielen Situationen Systeme durch transparente und sicherheitsbewusste Mechanismen gesteuert werden müssen. Ein typisches Beispiel hierfür sind autonome Fahrzeuge, bei denen der Agent in der Steuerung nicht nur das gewünschten Ziel erreichen muss, sondern auch die Treibstoffeffizienz und den Fahrgastkomfort beachten muss und neben all diesen Anforderungen zusätzlich die Wahrscheinlichkeit von Kollisionen minimieren sollte.

Um diesen sicherheitsrelevanten Anforderungen gerecht zu werden, werden Algorithmen verwendet, die sowohl einen Risikoschätzer entweder aus verfügbaren Daten oder mittels der Interaktion zwischen dem Agenten und der Umwelt lernen, als auch einen Trade-off-Faktor zwischen dem Wert des zu erreichenden Ziels und dem Risiko einer bestimmten Strategie, um das Ziel zu erreichen.

Im Rahmen des Projektes wurde dieser Ansatz von der Applikation »KI-Framework für autonome Systeme« genutzt, um einem autonomen Fahragenten beizubringen, risikosensitive Entscheidungen auf hoher Ebene sicher durchzuführen, wie z. B. Zusammenführen im Kreisverkehr, ungeschütztes Abbiegen und Spurwechsel. Darüber hinaus wurde in der Applikation »Effiziente Suche und Repräsentation von Trackingdaten« das Risiko, den Ball in einem Fußballspiel zu verlieren, anhand von Offline-Daten aus realen Spielen abgeschätzt und ein sicherheitsbewusster Reinforcement Learning-Agent trainiert, um ein 11 gegen 11 Fußballspiel in der Simulation zu spielen.

Eine zusätzliche Ebene der Sicherheit und Robustheit kann durch die Anwendung von hierarchischen Reinforcement Learning Ansätzen erreicht werden. Anstelle eines Algorithmus, der lernt, eine Aufgabe direkt zu lösen, sind Low-Level-Controller/Policies für die Ausführung grundlegender Funktionen zuständig. Higher-Level-Policies lernen, die komplexe Aufgabe durch Wiederverwendung, Kombination und Sequenzierung der verfügbaren Low-Level-Policies zu lösen. Die Low-Level-Komponenten können von Hand entwickelt und individuell trainiert werden oder sogar eine fortgeschrittene Steuerungslogik wie Model Predictive Controllers enthalten. Dieser Ansatz wurde von der Anwendung »KI-Framework für autonome Systeme« genutzt, um robustere und interpretierbare Strategien für autonomes Fahren zu erlernen. Hier stehen Low-Level-Strategien wie »der Spur folgen«, »auf die linke/rechte Spur wechseln« oder »die Geschwindigkeit erhöhen/verringern« zur Verfügung und ein koordinierender Agent wird darauf trainiert, diese zu nutzen, um sicher durch den Verkehr zu einem Zielpunkt zu navigieren.

Imitationslernen

Das Paradigma des Verstärkungslernens basiert auf der Verfügbarkeit einer Belohnungsfunktion, die angibt, wie vorteilhaft oder nachteilig die Entscheidungen sind, die der Agent in jedem Schritt getroffen hat. Auf der Grundlage dieser Informationen kann der Agent schrittweise lernen, seine Leistungen zu verbessern und eine bestimmte Aufgabe effizienter zu lösen. In einigen Fällen kann es jedoch schwierig sein, eine geeignete Belohnungsfunktion zu entwickeln. Wie kann beispielsweise die »interne« Belohnungsfunktion des Fahrers eines Autos quantifiziert werden, die zwischen Komfort, Kraftstoff-/Kosteneffizienz und dem Erreichen eines Ziels in möglichst kurzer Zeit abwägt?

In solchen Situationen kann das Imitationslernen eingesetzt werden. Hier haben wir entweder Beispiele eines Experten, der die betreffende Aufgabe ausführt (im Fall des autonomen Fahrens stehen beispielsweise aufgezeichnete Daten von mehreren menschlichen Fahrern zur Verfügung), und der Agent lernt, deren Strategie zu »imitieren«, oder es wird ein »Lehrer/Schüler«-Setting definiert, bei der wir den Experten interaktiv direkt nach den besten Aktionen in bestimmten Situationen befragen können, um den Agenten schrittweise zu trainieren, damit er die Leistung des Experten erreicht.

Imitationslernen kann auch als Prozess zur Interpretation der Entscheidungen des trainierten Agenten genutzt werden. Dabei wird Imitationslernen genutzt, um das Verhalten eines trainierten Black-Box-Agenten (z. B. eines neuronalen Netzes) zu einem binären Entscheidungsbaum zu destillieren, wie in der »Lehrer/Schüler«-Situation. Auf diese Weise hat der generierte Entscheidungsbaum dieselbe Leistung wie die ursprüngliche Strategie, kann aber als eine Reihe von »Wenn-dann-wenn«-Regeln interpretiert werden. Dieser Ansatz wird von der Anwendung »KI-Framework für autonome Systeme« verwendet, bei der High-Level-Verhaltensrichtlinien für das Fahren (z. B. die Entscheidung, wann man die Spur wechselt oder sich in den Verkehr einreiht) mit Hilfe von Reinforcement Learning trainiert und dann in binäre Entscheidungsbäume extrahiert werden. Diese Bäume können entweder manuell von einem Sicherheitsingenieur oder mit automatisierten formalen Verifikationsmethoden verifiziert werden.

»ADA wills wissen« Podcast

In unserer neuen Podcast-Reihe »ADA wills wissen« befinden sich die Kompetenzsäulen-Verantwortlichen mit ADA im Gespräch und geben Einblick in ihre Forschungsschwerpunkte, Herausforderungen und Methoden. In dieser Folge hören Sie ADA mit Christopher Mutschler.

»ADA wills wissen« Podcast für Erfahrungsbasiertes Lernen mit Christopher Mutschler

Die KI-Kompetenzsäulen des ADA Lovelace Centers

Alle ausklappen Alle einklappen

Automatisches Lernen

Das automatische und adaptive Lernen (AutoML) beschäftigt sich mit der Automatisierung des KI Prozesses und von besonders arbeitsintensiven, manuellen Aufgaben, die im Regelfall von Experten durchgeführt werden. So wird das Maschinelle Lernen zugänglicher und effizienter. AutoML deckt einen großen Bereich ab, der bei der Automatisierung der Merkmalserkennung und -auswahl für gegebene Datensätze sowie der Modellsuche und -optimierung beginnt, über deren automatisierte Bewertung reicht und bis hin zur adaptiven Anpassung der Modelle durch Trainingsdaten und Systemfeedback geht.

Sequenzbasiertes Lernen

Sequenzbasiertes Lernen beschäftigt sich mit zeitlichen und kausalen Zusammenhängen in Daten wie sie z. B. in der Sprachverarbeitung, Ereignisverarbeitung, Biosequenzanalyse oder auch in Multimediadaten auftreten. Dabei wird aus beobachteten Ereignissen der aktuelle Systemzustand erkannt und zukünftige Zustände vorhergesagt, was sowohl möglich ist, wenn nur die Reihenfolge ihres Auftretens bekannt ist, als auch dann, wenn sie genaue Zeitstempel tragen.

Data-centric AI

Data-centric AI (DCAI) bietet eine neuartige, ergänzende Perspektive auf die KI-Modellbildung. Der Schwerpunkt wird dabei von der Modellbildung auf die Kuratierung hochwertiger, einheitlich annotierter Trainingsdatensätze verlagert. Die zugrundeliegende Erkenntnis ist, dass bei vielen KI-Projekten die Hebelwirkung zur Verbesserung der Modellleistung in der Kuratierung der verwendeten Trainingsdaten liegt.

Vertrauenswürdige KI

Um künstliche Intelligenz sicher und zweckmäßig in der Praxis einsetzen zu können, muss maschinelles Lernen (ML) für den Nutzer nachvollziehbar sein. In vielen Bereichen, wie z.B. der medizinischen Entscheidungsfindung oder der Qualitätskontrolle in der Produktion, ist es wichtig, die Grundlagen zu verstehen, auf der das Modell Entscheidungen und Vorhersagen trifft, um Transparenz und Vertrauen zu schaffen. Methoden für verständliche und vertrauenswürdige KI werden am ADA Lovelace Center in der Kompetenzsäule Vertrauenswürdige KI erforscht, die zu einer menschenzentrierten KI für Anwender in Wirtschaft, Wissenschaft und Gesellschaft beiträgt.

Prozessbewusstes Lernen

Prozessbewusstes Lernen stellt das Bindeglied zwischen Process Mining, der datenbasierten Analyse und Modellierung von Prozessen, und Machine Learning dar. Im Fokus steht dabei die Vorhersage von Prozessabläufen, Prozesskennzahlen und Prozessauffälligkeiten. Dies wird durch eine Extrahierung von Prozesswissen aus Event Logs und deren Überführung in erklärbare Prognosemodelle ermöglicht. Hierdurch können Einflussfaktoren identifiziert und vorausschauend Handlungsoptionen zur Prozessverbesserung abgeleitet werden.

Mathematische Optimierung

Die mathematische Optimierung ist unverzichtbarer Bestandteil der modellbasierten Entscheidungsunterstützung, indem sie Planungslösungen in so unterschiedlichen Bereichen wie der Logistik, Energiesystemen, Mobilität, im Finanzwesen und für Gebäudeinfrastrukturen liefert, um nur wenige Beispiele zu nennen. Die umfangreiche bestehende Expertise wird in mehrere aussichtsreiche Richtungen, namentlich der Echtzeitplanung und -steuerung weiterentwickelt.

Semantik

Die Aufgabe der Semantik ist es, Daten und Datenstrukturen formal definiert, standardisiert, inhaltlich widerspruchsfrei und eindeutig zu beschreiben. So müssen bei Industrie 4.0 verschiedenste Entitäten (wie Sensoren, Produkte, Maschinen oder Transportsysteme) in der Lage sein, deren Eigenschaften, Fähigkeiten oder Zustände anderer Entitäten in der Wertschöpfungskette zu interpretieren.

Das könnte Sie auch interessieren

Weiterbildungen am ADA Lovelace Center

Das ADA Lovelace Center for Analytics, Data and Applications bietet – gemeinsam mit seinen Kooperationspartnern – Weiterbildungsprogramme rund um Konzepte, Methoden und konkrete Anwendungen im Themenbereich Data Analytics und KI.

Hierzu werden Seminare mit den folgenden Schwerpunkten angeboten:

Maschinelles Lernen

Reinforcement Learning

Zur Übersicht der Weiterbildungen