KNN effizient trainieren mithilfe synthetischer Daten

Das Training Künstlicher Neuronaler Netze erfordert erhebliche Ressourcen: Messdaten müssen aufgenommen und händisch aufbereitet werden. Wir automatisieren diesen Schritt durch das Synthetisieren von Trainingsdaten für KNN.

Erstellung synthetischer Trainingsdaten

Synthetische Trainingsdaten für KNN
© Fraunhofer IPM
Abb. 1: Digitales 3D-Modell einer Straßenszene
Synthetische Trainingsdaten für KNN
© Fraunhofer IPM
Abb. 2: Aus dem 3D-Modell wird eine fotorealistische Darstellung erzeugt, die eine reale Kameraaufnahme simuliert.
Synthetische Trainingsdaten für KNN
© Fraunhofer IPM
Abb. 3: Aus derselben Datengrundlage wird automatisiert eine Segmentierung generiert, in der jedes Pixel des Kamerabildes einer Objektklasse zugeordnet wird.

KNN in die breite Anwendung bringen

Künstliche neuronale Netze (KNN) sind in der Lage, Messdaten vollautomatisch zu interpretieren. Damit sind sie ein essenzieller Baustein bei der Umsetzung innovativer Prozessketten in der 3D-Messtechnik. KNN werden bisher in der Regel mithilfe manuell erstellter Trainingsdaten für eine Interpretationsaufgabe vorbereitet. Dieser aufwändige und teure Prozess steht dem Einsatz solcher Netze oftmals im Wege. Fraunhofer IPM entwickelt Software zur automatischen Erstellung synthetischer Trainingsdaten aus dreidimensionalen Modellen. Der Input für das Training von KNN kann damit erheblich kostengünstiger generiert werden. Das finanzielle Risiko für das Pilotieren eines Einsatzes einer KI-basierten Datenauswertung sinkt. Damit wird die automatisierte Auswertung von Messdaten erschwinglich.

Vom 3D-Modell zu simulierten Messdaten: Netze trainieren im virtuellen Raum

Grundlage synthetischer Trainingsdaten ist ein dreidimensionaler Datensatz, der eine virtuelle Repräsentation der Umgebung, z. B. einer typischen Stadtszene, bildet (Abb. 1). Aus dieser eigens erzeugten digitalen 3D-Modellwelt kann einerseits eine fotorealistische Darstellung erzeugt werden (Abb. 2), die eine reale Kameraaufnahme simuliert und dabei virtuell die Parameter real existierender Messgeräte simuliert. Andererseits kann vollautomatisiert eine Segmentierung des 3D-Modells generiert werden, in der jedem Pixel des Kamerabilds eine Objektklasse zugeordnet wird (Abb. 3). Da sich eine Szene aus zuvor selbst festgelegten und somit bekannten Objekten zusammensetzt, ist die Segmentierung der Daten inhärent gegeben. Die bislang händische Zuordnung wird damit obsolet. Aus einem 3D-Modell lassen sich also sowohl die Messdaten, beispielsweise Kamerabilder, als auch segmentierte Bilder – die Trainingsdaten – mit 100-prozentiger Genauigkeit erstellen, während der manuelle Prozess immer fehlerbehaftet ist. Das synthetische Erstellen der Trainingsdaten ist demnach nicht nur effizienter, sondern auch genauer als das manuelle Annotieren von Daten. Zudem können die Trainingsdaten aus verschiedenen, frei wählbaren Perspektiven im Raum erzeugt werden. Aus einem Datensatz können also diverse Anwendungen mit unterschiedlichen Aufnahmeperspektiven – etwa aus der Luft, von der Straße oder dem Gehsteig  – bedient werden.

Tiefes Verständnis der Prozesskette ist der Schlüssel

Beim Rendern der jeweiligen Szene nutzen wir unser umfassendes Know-how in den Bereichen Modellierung und Messtechnik: Neben der reinen 3D-Geometrie spielen die Materialeigenschaften der Oberflächen, die Beleuchtungssituation sowie – im Außenbereich – Wetterverhältnisse und je nach Anwendungsfall weitere Eigenschaften eine Rolle. Hinzukommen mitunter dynamische Eigenschaften wie die Bewegung von Objekten in der 3D-Szene. Für eine zuverlässige und effiziente Datenauswertung muss darüber hinaus das in der späteren Anwendung eingesetzte Messsystem berücksichtigt werden. Am Ende sollen aus den 3D-Modellen mit sämtlichen Zusatzinformationen realitätsnahe, virtuelle Messdaten für verschiedene Messgeräte erzeugt werden.

Mit mobilen Mapping-Systemen erzeugte Messdaten liegen vor allem als 3D-Punktwolken, 2D-Kamerabilder oder 360°-Panorama-Aufnahmen vor. Die Messdaten entstehen mithilfe von Laserscannern und Kameras. Bei der Modellierung gilt es nun, die gerätespezifischen Charakteristika nachzustellen: Wie interagiert das Messsystem mit der Umgebung? Dafür ist es nötig, sowohl die Interaktion der Lichtpulse mit dem jeweiligen Oberflächenmaterial (Sonnenlicht, Umgebungslicht, künstliche Beleuchtung, Laserstrahl) als auch die Vorgänge im jeweiligen Messgerät (Scanner, Kamera) in ausreichender Tiefe algorithmisch nachzubilden.

Für eine möglichst hohe Effizienz bei der Entwicklung und Anwendung von Software für das Training von KNN muss sorgfältig zwischen physikalisch möglichst exakter Nachbildung und einer ausreichenden, auf Heuristiken beruhenden Näherung der jeweiligen Phänomene abgewogen werden. Dies erfordert umfangreiche Kenntnis des jeweiligen Aufnahmeprozesses und des Stands der Wissenschaft in der algorithmischen Nachbildung solcher Prozesse. Fraunhofer IPM hält eine Bibliothek von Algorithmen vor, die es erlauben, aus einem Baukastensystem von generischen 3D-Modell-Komponenten durch Parametrisierung eine Vielzahl von 3D-Szenen mit unterschiedlichen Eigenschaften zu erzeugen.