Telefonieren beim Fahren ist ein Ärgernis und schlicht gefährlich. Das könnte sich in naher Zukunft ändern. Ein bildbasiertes CNN-System (Convolutional Neural Network-System) erkennt automatisch die Nutzung von Mobiltelefonen und den Verzehr von Lebensmitteln.
Nach einem Bericht der Weltgesundheitsorganisation (WHO) sterben jedes Jahr etwa 1,35 Millionen Menschen bei Verkehrsunfällen und weitere 20 bis 50 Millionen werden verletzt. Eine der Hauptursachen dafür ist die Unachtsamkeit am Steuer, weswegen viele Automobilhersteller bereits Fahrassistenzsysteme zur Erkennung von Müdigkeit nutzen. Doch nicht nur Sekundenschlaf verursacht viele Unfälle, auch das Telefonieren sowie Schreiben von Textnachrichten mit dem Smartphone oder der Verzehr von Lebensmitteln während der Fahrt stellen ein hohes Risiko dar. Bisherige Assistenzsysteme können diese Tätigkeiten allerdings noch nicht identifizieren. ARRK Engineering hat daher eine Testreihe
durchgeführt, um Ablenkungen durch Mobiltelefone oder Nahrungsaufnahme automatisch
zu erkennen und zu kategorisieren. Dazu wurden Bilder mit Infrarotkameras aufgenommen und für das maschinelle Anlernen von unterschiedlichen Convolutional Neural Network-Systemen (CNN) verwendet. So konnte die Grundlage für einen Fahrassistenten geschaffen werden, der zuverlässig verschiedene Szenarien am Steuer erkennt und den Fahrer vor verkehrsgefährdendem Verhalten warnt.
Seit einigen Jahren kommen in der Automobilindustrie bereits Systeme zum Einsatz,
die bei auftretender Müdigkeit warnen. Dafür analysieren diese Fahrassistenten beispielsweise die Blickrichtung des Fahrers und erkennen automatisch Abweichungen vom
üblichen Verhalten am Steuer. Existierende Warnsysteme können bisher nur bestimmte
Gefahrensituationen richtig erfassen, denn bei einigen Tätigkeiten wie Essen, Trinken oder
Telefonieren wird die Kopfhaltung kaum verändert, da der Fahrer weiter auf die Strasse vor sich schaut. Aus diesem Grund hat ARRK Engineering eine Versuchsreihe zur Identifikation von unterschiedlichen Körperhaltungen durchgeführt, um die Nutzung von Mobiltelefonen und den Verzehr von Lebensmitteln automatisch zu erkennen. Damit alle Arten von visueller, aber auch manueller und kognitiver Ablenkung korrekt erfasst werden, testete ARRK verschiedene Deep- Learning-Modelle und trainierte sie mit den ermittelten Daten.
Anlernen der Systeme
Für den Versuchsaufbau wurden in einem Testwagen zwei Kameras mit aktiver Infrarotbeleuchtung jeweils links und rechts des Fahrers an der A-Säule installiert. Beide
Kameras verfügten über eine Frequenz von 30 Hz und lieferten 8-Bit-Graustufenbilder
mit einer Auflösung von 1.280 × 1.024 Pixeln. Die Kameras waren zudem mit einem IR-Langpassfilter ausgestattet, um den grössten Teil des Lichts aus dem sichtbaren Spektrum mit einer Wellenlänge unter 780 Nanometer zu blockieren. Dadurch stellten die Verantwortlichen sicher, dass das empfangene Licht hauptsächlich von den IR-Strahlern stammt und deren volle Funktionalität sowohl bei Tag als auch bei Nacht gewährleistet ist. Darüber hinaus vermied die Blockade des sichtbaren Tageslichts auch mögliche Schatteneffekte in der Fahrerkabine, die sonst zu Fehlern bei der Gesichtserkennung führen können. Damit die Bilder auf beiden Seiten zur gleichen Zeit aufgenommen wurden, wurde
ein Raspberry Pi 3 Model B+ verwendet, das ein Triggersignal an beide Kameras im Moment der Aufnahme sendet.
Mit diesem Aufbau wurden die Bilder der Körperhaltungen von 16 Probanden in einem
stehenden Auto aufgenommen. Um möglichst vielfältige Daten zu erzeugen, unterschieden
sich die Probanden beispielsweise in Geschlecht, Alter oder Kopfbedeckung, aber auch verschiedene Mobiltelefonmodelle, Lebensmittel und Getränke wurden genutzt. «Für die jeweiligen Ablenkungsarten erstellten wir fünf Kategorien, in die später die Körperhaltungen einsortiert werden konnten. Dabei handelte es sich um: «keine sichtbare Ablenkung», «Telefonieren am Smartphone», «manuelle Bedienung des Smartphones»,
«Essen sowie Trinken», aber auch das «Halten von Lebensmitteln oder Getränken›»,
erläutert Wagner. «Für die Versuchsreihe instruierten wir unsere Probanden, zwischen
diesen Tätigkeiten bei simuliertem Fahrverhalten zu wechseln.» Nach der Aufnahme
wurden die Bilder der beiden Kameras entsprechend kategorisiert und danach für das maschinelle Anlernen des Systems genutzt.
Test der Bilderkennungssysteme
Zur Erkennung der Körperhaltungen wurden vier modifizierte CNN-Modelle verwendet:
ResNeXt-34, ResNeXt-50, VGG-16 und VGG-19. Die beiden letztgenannten repräsentieren
in der Praxis gängige Modelle wohingegen ResNeXt-34 und ResNeXt-50 eine dedizierte Struktur zur Verarbeitung von parallelen Pfaden enthalten. Für das Training der Systeme führte ARRK 50 Durchgänge mit dem Adam-Optimizer durch – einem Optimierungsalgorithmus mit adaptiver Lernrate. Dabei musste das CNN-Modell in jedem Durchgang die Körperhaltungen der Probanden in die vorher erstellten Kategorien einordnen. Mit jedem weiteren Schritt wurde diese Kategorisierung über ein Gradientenverfahren so angepasst, dass die Fehlerrate kontinuierlich sinkt. Zum Abschluss des Prozesses wurde ein dedizierter Testdatensatz für die Berechnung der Wahrheitsmatrix verwendet, um die Fehlerquote pro Fahrerhaltung für jedes CNN-Modell zu analysieren. Die Verwendung von zwei Kameras mit jeweils separat geschultem CNN-Modell ermöglicht
eine optimierte Fallunterscheidung für die linke und die rechte Gesichtshälfte. Dank dieses Vorgehens konnten die Verantwortlichen das System mit der besten Performance ermitteln, um den Gebrauch von Mobiltelefonen und den Verzehr von Lebensmitteln für einen grossen Bereich von Kopfwinkeln zu erkennen. Die Gesamtauswertung ergab, dass die CNN-Modelle ResNeXt-34 und ResNeXt-50 die höchste Testgenauigkeit von 92,88 Prozent für die linke Kamera und 90,36 Prozent für die rechte Kamera erreichten – ein mit bisherigen Lösungen
zur Erkennung von Müdigkeit absolut wettbewerbsfähiges Ergebnis.
Weitere Optimierungen
Mit diesen Informationen erweiterte ARRK abschliessend seine Trainingsdatenbank und kann beispielsweise bereits auf etwa 20.000 gelabelte Augendatensätze zugreifen. Darauf aufbauend ist die Entwicklung eines automatisierten, kamerabasierten Systems zur Validierung von Fahrerbeobachtungssystemen möglich. Für eine geringere Fehlerquote des Systems planen die Experten von ARRK Engineering sogar bereits einen Schritt weiter. Um die Genauigkeit weiter zu verbessern, werden in einem nächsten Projekt andere CNN-Modelle eingesetzen. Neben der Bewertung weiterer Klassifikationsmodelle werden die Verantwortlichen dabei auch analysieren, ob die Integration von zugehörigen Objektpositionen aus dem Kamerabild zu zusätzlichen Verbesserungen führen kann. In diesem Zusammenhang werden Ansätze zu berücksichtigen sein, die auf der Erkennung
von sogenannten Bounding Boxes und der semantischen Segmentierung basieren. Letztere ermöglichen neben einer Klassifizierung auch verschiedene Detailstufen hinsichtlich der Lokalisierung von Objekten. Auf diese Weise kann ARRK die Genauigkeit eines Fahrassistenzsystems zur automatischen Erkennung von Ablenkungen am Steuer verbessern.