Semantik

Schaffung von Transparenz bei KI-Entscheidungen

Semantik
© Fraunhofer IIS

Daten bilden den Rohstoff für alle Anwendungen maschineller Lernverfahren sowie Künstlicher Intelligenz. Nutzenbringende und sinnvolle Erkenntnisse auf Basis dieser Daten lassen sich jedoch nur dann extrahieren, wenn das damit verbundene oder darin enthaltene Wissen, also deren »Semantik«, in geeigneter Weise während oder nach der Entstehung der Daten erfasst, in geeigneter Form, d.h. gleichermaßen in einer von Menschen und Maschinen verständlicher Darstellung beschrieben und mit den eigentlichen Daten in Korrelation gesetzt wird.

Mit Bezug auf diese Anforderungen beschäftigt sich die Kompetenzsäule K8 »Semantik« mit zwei Schwerpunkten:

  • Erfassung von Wissen: Der erste Schwerpunkt konzentriert sich auf die Frage, wie »Modellwissen« in verschiedenen spezifischen Anwendungsbereichen (wie z.B. Fahrerunterstützung, Selbstlokalisation, Digitale Pathologie oder Segmentierung von XXL-Tomographie Daten) mit den dafür genutzten und benötigten Messdaten (z.B. Vitaldaten und Emotionen von Personen im Fahrzeug, Lokalisationsparameter, Mikroskopiedaten von histologischem Gewebe, XXL-Tomographiedaten) erfasst und gemeinsam beschrieben werden kann.
  • Der zweite Schwerpunkt beschäftigt sich mit der Herausforderung, die erfassten Informationen bzw. Semantiken mit den zugehörigen Messdaten (s.o.) derart zu verknüpfen, dass diese mittels methodischer Ansätze aus den Bereichen Datenanalyse, Maschinellem Lernen und Künstlichen Intelligenz verfügbar gemacht und für verschiedene Anwendungen nutzbar gemacht werden können.

Im Kontext der Wissenserfassung wurde eine Umfrage in Form von strukturierten Interviews mit den Experten der) Anwendungsprojekte begonnen, um zu extrahieren, zu erfassen und zu dokumentieren in welcher Form die Semantik (also das »Wissen«) bzgl. der damit verbundenen Fragestellungen und unterschiedlichen Datenquellen (Bilder, Bildvolumina, Videos, multimodale Zeitreihen, etc.) in den verschiedenen Anwendungsprojekten vorliegt, erfasst und verwaltet wird. Ziel dieser Umfrage ist zum einen die Erstellung eines gemeinsamen Verständnisses über den Begriff »Semantik« und zum anderen die Findung von Synergien bei deren Erfassung und Nutzung.

Auf den so erhobenen Rückmeldungen wurde ein erstes Clusterring der verschiedenen Methoden zur Wissenserfassung durchgeführt. Diese Ansätze lassen sich aktuell in folgende Gruppen einteilen.  

Ikonische Annotation

Bei der Ikonischen Annotation werden Regionen in 2D und 3D Bilddaten bildhaft eingezeichnet und markiert (»gelabelt«) . Für den Bereich der »Digitalen Pathologie« bestehen diese eingezeichneten Regionen bspw. aus verschiedenen Gewebearealen mit bestimmten anatomischen oder pathologischen Eigenschaften wie »Tumor«, »Bindegewebe« oder »Entzündetes Gewebe«, wohingegen bei der Segmentierung von XXl-CT Daten diese hangelabelten Regionen z. B. »Schrauben«, »Bleche« oder »Nieten« beschreiben. Ähnliche Ansätze werden auch für das Erfassen von Informationen in Videoströmen (z.B. von Fußballspielen) genutzt, bei der manuell die 2D-Positionen von Ball und Spieler über die Zeit sowie wichtige Events (Foul, Tor, Aus) markiert werden.  

Simulation

Für Anwendungen aus den Bereichen »Autonomes Fahren« oder »Automatische KI-basierte Analyse von Spielen« (Effiziente Suche und Repräsentation von Trackingsdaten z.B. Fußball, Basketball, Eishockey) werden neben (schwer erhältlichen realen Daten) u.a. kommerziell verfügbare Simulatoren (Fahr- und Spielesimulatoren) genutzt, bei denen die durch die Datenanalyse vorherzusagende Informationen (»Semantik«) automatisch vom Simulator zur Verfügung gestellt wird und damit die »Messbare Grundwahrheit« bildet.

Referenzsysteme

Für Anwendungen zur Selbstlokalisation, zum Indoor-Tracking, und zur Navigation mittels preiswerten Smartphones werden als Referenz-Systeme qualitativ hochwertige Sensoren wie präzise optische Tracking-Systeme oder Roboter genutzt.

Semantische Netzwerke und Regelbasierte Systeme

Hier wird das Expertenwissen über eine Domäne (z.B. über die Zusammensetzung von Baugruppen in Automobilen oder Flugzeugen) in Form von geeigneten maschinen-lesbaren Regeln und formalen Beziehungsgraphen formuliert und abgelegt, die dann durch eine Maschine interpretiert werden können.

Ziel der Aufbereitung und Zusammenstellung ist es einen Empfehlungskatalog für die Erfassung verschiedener Semantiken unterschiedlicher Daten zu erstellen, um sich dann dem zweiten Schwerpunkt, der Nutzbarmachung des Wissens für verschiedene Anwendungen, zu widmen.

Die KI-Kompetenzsäulen des ADA Lovelace Centers

Automatisches Lernen
© Fraunhofer IIS

Das automatische und adaptive Lernen (AutoML) beschäftigt sich mit der Automatisierung des KI Prozesses und von besonders arbeitsintensiven, manuellen Aufgaben, die im Regelfall von Experten durchgeführt werden. So wird das Maschinelle Lernen zugänglicher und effizienter. AutoML deckt einen großen Bereich ab, der bei der Automatisierung der Merkmalserkennung und -auswahl für gegebene Datensätze sowie der Modellsuche und -optimierung beginnt, über deren automatisierte Bewertung reicht und bis hin zur adaptiven Anpassung der Modelle durch Trainingsdaten und Systemfeedback geht.  

Sequenzbasiertes Lernen
© Fraunhofer IIS

Sequenzbasiertes Lernen beschäftigt sich mit zeitlichen und kausalen Zusammenhängen in Daten wie sie z. B. in der Sprachverarbeitung, Ereignisverarbeitung, Biosequenzanalyse oder auch in Multimediadaten auftreten. Dabei wird aus beobachteten Ereignissen der aktuelle Systemzustand erkannt und zukünftige Zustände vorhergesagt, was sowohl möglich ist, wenn nur die Reihenfolge ihres Auftretens bekannt ist, als auch dann, wenn sie genaue Zeitstempel tragen.

Erfahrungsbasiertes Lernen
© Fraunhofer IIS

Als erfahrungsbasiertes Lernen bezeichnet man Methoden, die es einem System erlauben, sich selbst zu optimieren, indem es mit der Umwelt interagiert und deren Feedback auswertet, oder sich an veränderliche Umweltbedingungen dynamisch anpasst. Hierzu zählen die automatisierte Erzeugung von Modellen zur Bewertung und Optimierung von Geschäftsprozessen, Transportabläufen oder auch Robotersteuerungen in der industriellen Fertigung. 

Few Labels Learning
© Fraunhofer IIS

Die bahnbrechenden Erfolge der KI bei Aufgaben wie Spracherkennung, Objekterkennung oder maschineller Übersetzung sind u.a. auf die Verfügbarkeit von enorm großen, annotierten Datensätzen zurückzuführen. Allerdings ist diese in vielen realen Szenarien, besonders im Industrieumfeld, begrenzt. Daher erforschen wir das Lernen mit wenigen annotierten Daten im Kontext von Techniken des unüberwachten, semi-überwachten- und des Transfer-Lernens.

 

Das digitale Datenvolumen (sog. »Big Data«) wächst seit einigen Jahren ungebremst. Bei der Wissensgenerierung müssen die erzielten Ergebnisse und Vorhersagen den Anwendern in geeigneter Weise plausibel und transparent gemacht werden. Dieser Aspekt wird im ADA Lovelace Center unter dem Stichwort erklärbares Lernen erforscht, und sorgt dafür, die Akzeptanz der künstlichen Intelligenz bei Anwendern in Wirtschaft, Wissenschaft und Gesellschaft zu erhöhen.

 

Prozessbewusstes Lernen stellt das Bindeglied zwischen der Modellierung und Analyse von Prozessen und dem Data Mining dar. Im Fokus steht dabei die Prozesserkennung, Konformitätsprüfung und Prozessverbesserung auf Daten in Form von Ereignisprotokollen. Sie dient dem Vergleich von Soll- und Ist-Zuständen, z.B. bei Geschäftsprozessen in Form von Workflow-Management-Systemen (WMS) oder Enterprise-Resource-Planning-Systemen (ERP).

Mathematische Optimierung Illustration
© Fraunhofer IIS

Die mathematische Optimierung ist unverzichtbarer Bestandteil der modellbasierten Entscheidungsunterstützung, indem sie Planungslösungen in so unterschiedlichen Bereichen wie der Logistik, Energiesystemen, Mobilität, im Finanzwesen und für Gebäudeinfrastrukturen liefert, um nur wenige Beispiele zu nennen. Die umfangreiche bestehende Expertise wird in mehrere aussichtsreiche Richtungen, namentlich der Echtzeitplanung und -steuerung weiterentwickelt.

Die Aufgabe der Semantik ist es, Daten und Datenstrukturen formal definiert, standardisiert, inhaltlich widerspruchsfrei und eindeutig zu beschreiben. So müssen bei Industrie 4.0 verschiedenste Entitäten (wie Sensoren, Produkte, Maschinen oder Transportsysteme) in der Lage sein, deren Eigenschaften, Fähigkeiten oder Zustände anderer Entitäten in der Wertschöpfungskette zu interpretieren.

Few Data Learning
© Fraunhofer IIS

Few Data Learning beschäftigt sich mit der Aufbereitung und Vervollständigung von Daten sowie der Erzeugung einer ausreichenden Menge an Datensätzen, z. B. KI-Anwendungen auf Materialstammdaten in der Industrie. Das umfasst die Aufbereitung fehlerhafter Datensätze und den Einsatz von Simulationstechniken um fehlende Daten zu erzeugen.

Das könnte Sie auch interessieren

Weiterbildungen am ADA Lovelace Center

Das ADA Lovelace Center for Analytics, Data and Applications bietet – gemeinsam mit seinen Kooperationspartnern – Weiterbildungsprogramme rund um Konzepte, Methoden und konkrete Anwendungen im Themenbereich Data Analytics und KI.

Hierzu werden Seminare mit den folgenden Schwerpunkten angeboten:

Maschinelles Lernen

Reinforcement Learning