KI-Framework für autonome Systeme

Was sind Autonome Systeme?

KI Framework
© Shutter2U - stock.adobe.com

Autonome Systeme sind dadurch gekennzeichnet, dass sie über Sensoren ihr Umfeld erfassen und mit diesem eigenständig über Aktoren interagieren können. Ein solches System setzt sich aus Sensoren zur Umfelderfassung, Komponenten zur Aggregation, Auswertung und Interpretation von Daten sowie einer Situationsbewertung, Aktionsplanung und Aktorik zusammen. Deep Reinforcement Learning (DRL) ist dabei eine Methodik, die Entscheidungsfindung in autonome Systeme bzw. autonome Agenten zu implementieren. Autonom agierende KI-Agenten sind überall: Sie befinden sich in selbstfahrenden Autos und Drohnen, intelligenten Produktionsanlagen und Logistik, intelligenter Haussteuerung und Smart Homes. Auch Roboter und Prothesen lernen ihr Verhalten. Sogar Empfehlungssysteme und virtuelle Assistenten für Termine verwenden Techniken des Reinforcement Learnings, und auch beim Tunen und Anpassen von KI-Modellen wie ChatGPT wird Reinforcement Learning mit menschlichem Feedback verwendet.

 

 

© Pixabay / Fraunhofer IIS

Use-Case: Verhaltensplanung für Fahrassistenz

© Fraunhofer IIS
Deep Reinforcement Learning (DLR), angewandt auf autonomes Fahren.

Im Rahmen von »KI-Framework für Autonome Systeme« wird ein verlässlicher Fahrassistent entwickelt, um die Technologie zu demonstrieren. Die typische Verarbeitungskette eines autonomen Fahrzeugs besteht aus Perzeption, Routenplanung, Verhaltensplanung, Bewegungsplanung und Aktoren. Wir konzentrieren uns auf die Verhaltensplanung durch verlässliches Deep Reinforcement Learning.  Es werden Algorithmen für die Navigation in komplexen und kritischen Situationen mit sicherem Verhalten in Form einer sicheren Policy entwickelt. Das Training der KI ist so gestaltet, dass die Policy sowohl effizient ist, als auch strengen Sicherheitsbedingungen folgt. Darüber hinaus kann durch Extraktion von Entscheidungsbäumen mit Imitation Learning das Verhalten des KI-Agenten nicht nur interpretierbar, sondern auch verifizierbar gemacht werden. Dieses demonstriert, dass unsere Methode effiziente und verlässliche Lösungen auch für sicherheitskritische Use-Cases bietet.

Autonomes Fahren sicherer machen mit verlässlichem Reinforcement Learning

Die typische Verarbeitungskette eines autonomen Fahrzeugs enthält Komponenten zur Perzeption, Verhaltenplanung, Bewegungsplanung sowie Aktoren. Wir fokussieren uns hierbei darauf, mit Reinforcement Learning die Verhaltensplanung (Behavioral Plannning) umzusetzen.

© Adobe Stock / Fraunhofer IIS

Wir demonstrieren, dass effektive Fahrstrategien in kritischen Situationen durch Simulation gelernt werden können. Hier zeigt sich die Stärke des Reinforcement Learning: Durch Millionen von Fahrstunden im Simulator kann der KI-Agent auch schwierige Fahrsituationen spielend meistern. Wir evaluieren eine breite Menge an stark variierten Szenarios. Das Fahrverhalten wird auf verschiedene Faktoren optimiert, wie etwa die Sicherheit der Insassen durch Berücksichtigung von Kollisionszonen.

Hier haben wir mit SafeDQN einen klaren Ansatz implementiert, der aus seinen eigenen Fehlern lernt. Wir sehen hier wieder die Architektur des Reinforcement Learning Agenten für ein beschränktes Problem. Er bekommt den Zustand und die Belohnung und muss sich an Constraints halten. Für jeden Zustand muss gelernt werden, was die beste Aktion ist. Es werden zwei neuronale Netze trainiert, eines für den Nutzen der Aktionen, es optimiert das Fahren in Hinblick auf schnelles Erreichen des Zieles. Ein weiteres Netz wird für das Risiko der Aktionen trainiert, es lernt selbstständig aus Fehlern welche Verkehrssituationen riskant sind. Beide werden für alle möglichen Aktionen gemeinsam trainiert und es wird ein Kombinationsfaktor im Training bestimmt, der zur Auswahl der optimalen Aktion führt.

Wie man für eine spezifische Situation noch sicherer und nachvollziehbar werden kann, haben wir mit dem SafeVIPER-Ansatz gezeigt. Es gilt, mehrere Fahrzeuge, etwa auf der Autobahn, zu überholen. Nun ist hier das Auto vor einem unter Umständen schneller als das davor, und überholt vielleicht selbst. Es gilt, den optimalen Zeitpunkt für den Spurwechsel zu finden. Der SafeVIPER Algorithmus arbeitet in drei Schritten. Beim Training wird ein Reinforcement Learning Agent mit einem neuronalen Netz trainiert. Dabei wird im Safe Training ein beschränkter Markov-Prozess betrachtet, der den Agenten zu einem Sicherheitsabstand zwingt. Bei der Extraction wird mit Imitation Learning ein Entscheidungsbaum mit dem trainierten neuronalen Netz gelernt. Unsere Safe Extraction setzt dabei gleich drei Erweiterungen für die Sicherheit um. Bei der Verifikation nutzen wir nun aus, dass sich der Entscheidungsbaum ganz simpel in Aussagenlogik umwandeln lässt. Dazu formulieren wir die Dynamik der Umgebung und einen Unfall ebenfalls mit logischen Formeln. Lassen wir nun einen Gleichungslöser auf die zusammengefasste Formel Entscheidungsbaum und Umgebung führt zu Unfall los, und er findet keine erfüllende Belegung, haben wir nachgewiesen, dass unser Agent sicher ist.

Beide Verfahren werden in dem folgenden Film dargestellt.

Datenschutz und Datenverarbeitung

Wir setzen zum Einbinden von Videos den Anbieter YouTube ein. Wie die meisten Websites verwendet YouTube Cookies, um Informationen über die Besucher ihrer Internetseite zu sammeln. Wenn Sie das Video starten, könnte dies Datenverarbeitungsvorgänge auslösen. Darauf haben wir keinen Einfluss. Weitere Informationen über Datenschutz bei YouTube finden Sie in deren Datenschutzerklärung unter: https://policies.google.com/privacy

Kooperation im ADA Lovelace Center

Zwei Teams des ADA Lovelace Center for Analytics, Data and Applications haben sich zusammengetan, um zu zeigen, wie komplementäre Methoden ein größeres Ganzes bilden können: Das Fraunhofer IKS hat ein Wahrnehmungsmodul entwickelt, das nicht nur Objekte im Kamerabild erkennt, sondern auch für jedes Objekt eine Sicherheitseinschätzung abgibt. Das Team des Fraunhofer IIS hat einen Agenten mit Reinforcement Learning entwickelt, der weiß, wann es sicher ist zu fahren und wann es ratsam ist, andere Informationsquellen zu nutzen. Wie das genau funktioniert, sehen Sie in diesem Video.

Datenschutz und Datenverarbeitung

Wir setzen zum Einbinden von Videos den Anbieter YouTube ein. Wie die meisten Websites verwendet YouTube Cookies, um Informationen über die Besucher ihrer Internetseite zu sammeln. Wenn Sie das Video starten, könnte dies Datenverarbeitungsvorgänge auslösen. Darauf haben wir keinen Einfluss. Weitere Informationen über Datenschutz bei YouTube finden Sie in deren Datenschutzerklärung unter: https://policies.google.com/privacy