Semantische Segmentierung von Punktwolken

Methoden des »Deep Learning« erlauben eine automatisierte Analyse und Interpretation dreidimensionaler Punktwolken.

Automatisierte 3D-Datenauswertung

Bei der Zustandserfassung von Großstrukturen wie Verkehrswegen, Bauwerken oder landwirtschaftlich genutzten Flächen fallen enorme Mengen Bild- und 3D-Daten an, die heute in der Regel manuell ausgewertet werden. Das ist zeitaufwändig und teuer. Deshalb setzt Fraunhofer IPM auf eine automatisierte Auswertung mit Ansätzen des »Deep Learning«. Ergebnis ist eine semantische Segmentierung der Bilder, bei der jedes Pixel bzw. jeder 3D-Punkt einer bestimmten Objektklasse zugeordnet wird.

»Deep Learning« ist als Methode des »Machine Learning« ein Teilbereich der künstlichen Intelligenz und setzt auf lernende Algorithmen. Das Identifizieren und Klassifizieren von Objekten, wie beispielsweise die Erkennung eines vordefinierten Objektes (z. B. Verkehrsschild) in einem Bild, erfolgt anhand von Trainingsdatensätzen. Der Ansatz basiert auf künstlichen neuronalen Netzen (KNN) und ist klassischen Methoden der Objekterkennung überlegen.

Noch vor wenigen Jahren dauerte das Training solcher Algorithmen Wochen oder gar Monate. Heute ist dieser Prozess dank massiver Parallelisierung in wenigen Stunden möglich. Die Auswertung neuer Datensätze auf Basis eines trainierten KNN erfolgt dann sogar in Echtzeit. In KNN durchläuft die eingespeiste Information eine Vielzahl miteinander verknüpfter künstlicher Neuronen, wird verarbeitet und an weitere Neuronen weitergegeben.

Mithilfe manuell annotierter Trainingsdaten werden für bestimmte Eingangsmuster zugehörige Ausgabemuster erlernt. Auf Basis dieser »Erfahrungswerte« können neuartige Eingangsdaten dann in Echtzeit analysiert werden. Dabei erweisen sich KNN als sehr robust gegenüber Variationen charakteristischer Farben, Kanten oder Formen.

Datenbasis für die automatisierte Objekterkennung können sowohl 2D-Kamera- als auch 3D-Scandaten oder auch fusionierte Daten sein. Die georeferenzierten Punkte der Scandaten werden zunächst in ein Rasterformat überführt, das Tiefeninformationen enthält. Dieses wird dann mit den RGB-Kameradaten verknüpft. Dieser pixelbasierte RGB-D(epth)-Datensatz enthält zu jedem RGB-Kamerabild ein entsprechendes Tiefenbild und bildet ein ideales Eingabeformat für KNN.

Prozesskette im »Deep learning framework« zur automatisierten Dateninterpretation

© Foto /Grafik Fraunhofer IPM

Das Training künstlicher neuronaler Netze (KNN) erfolgt innerhalb weniger Stunden. Neue Datensätze werden mithilfe des trainierten KNN in Echtzeit ausgewertet.