Deep Learning ist innovativ und progressiv. Doch es gibt nicht nur Vorteile, es birgt auch ernst zu nehmende Gefahren. Automatische Übersetzungen und effiziente Unterstützung stehen Deep Fake und Vertrauenskrise gegenüber. Helfen können Krypto-Signaturen und eine Sensibilisierung aller Begleiter.
Deep Learning erzielt seit rund sieben Jahren rasche und erstaunliche Fortschritte. Die Technologie hat gezeigt, dass viele bisher nur von Menschen erkannte und erzeugte Datenstrukturen nun auch künstlich erzeugt und erkannt werden können. Das betrifft
insbesondere auch die gesprochene Sprache: Sie kann mit Deep Learning nicht nur erkannt und analysiert, sondern auch mit der Stimme einer existierenden Person erzeugt werden. Ähnliche, parallele Fortschritte gibt es auch im Video-Bereich.
Diese Technologien ermöglichen zweifellos Anwendungen mit grossem Potenzial: Zum
einen gibt es die Möglichkeit der automatisierten Simultanübersetzungen und der Sprachgenerierung aus Text. Mit diesen erschliessen sich unzählige Möglichkeiten realistischer Intonation. Eine weitere Idee sind Unterstützungssysteme für Menschen mit Behinderungen. Beispielsweise kann hiermit die Aussprache einer Person, deren Kehlkopf entfernt wurde, wieder verständlich gemacht werden.
Stimme klonen
Dank Technologien wie Lippensynchronisation ist es möglich, in einem Video die Lippenbewegungen einer Person an eine beliebige Audiosequenz mit gesprochener Sprache anzupassen, und mit der Stimmenidentifikation kann die Stimme selbst wie ein persönlicher Fingerabdruck genutzt werden, um beispielsweise in einer Telefonbesprechung den Gesprächspartner zu identifizieren.
Für die beiden ersten Punkte ist die Speech-to-Speech-Voice-Cloning-Technologie zentral. Hier wird die Stimme einer Person erfasst, und mit dieser Stimme wird neuer Text gesprochen. Die für ein Voice-Cloning benötigten Stimmproben werden laufend kürzer und die Qualität der Imitationen besser.
Diese Technologien bieten aber leider auch Raum für neuartige Missbrauchsszenarien, die im Folgenden angesprochen werden.
Rufschädigung als Folge
Das Missbrauchspotenzial rührt letztlich immer daher, dass Bildern oder der menschlichen Stimme von unbedarften Personen gerne eine gewisse Fälschungssicherheit unterstellt wird, welche durch die Deep-Learning-Technologie nicht mehr gegeben ist.
Konkret ergeben sich nun beispielsweise folgende Missbrauchsszenarien: Da wäre zunächst einmal das Problem der Rufschädigung: das heisst, dass Menschen in gefälschten und / oder kompromittierenden Situationen dargestellt werden. Man spricht hier auch von der
Deep-Fake-Technologie. Ausserdem sind Politiker dem Risiko ausgesetzt, ihre Glaubwürdigkeit zu verlieren, und Privatpersonen sind durch Mobbing-Attacken gefährdet. Ein weiterer Punkt ist die Manipulation: Betrüger können einer Aussage ungebührlich viel Gewicht verleihen, indem sie sie durch eine einflussreiche Person äussern lassen. Die Fake-News-Problematik wird dadurch verschärft. Und mit dem Voice-Cloning kann die Identität einer Vertrauensperson vorgegaukelt werden. Dadurch entsteht die Gefahr, unbedarfte
Personen um ihr Vermögen zu betrügen, indem man sie eine Finanztransaktion an den Betrüger autorisieren lässt. Die Kombination solcher Bild-, Ton- und Chatbot- Techniken wird die Problematik in Zukunft vermutlich nur noch verschärfen.
Es droht Vertrauensverlust
Die erwähnten Betrugsszenarien können zu einem Vertrauensverlust in gewisse Kommunikationskanäle führen, wogegen verschiedene Massnahmen getroffen werden können. Sensibilisierungskampagnen können vorschnelles und naives Vertrauen verhindern. Aber sie werden den Vertrauensverlust in Bild- und Tondokumente nur beschleunigen, wenn keine technischen Lösungen erarbeitet werden. Bewährte Online-Kontaktmodelle müssen um eine rigorose kryptografische Identitätsverifikation ergänzt werden. Politiker werden ihre per Video festgehaltenen Reden in Zukunft wohl kryptografisch signieren müssen, bevor deren Inhalt geglaubt werden darf.
Bereits jetzt werden solche Bedrohungsszenarien mit der Deep-Learning-Technologie auch bekämpft – ein Katz-und-Maus- Spiel mag die Folge sein. Neuronale Netze können nicht nur dazu eingesetzt werden, Bilder zu fälschen (Deep Fake), sondern auch dazu, diese Fälschungen als solche zu erkennen und User zu warnen. Der Forschungsbereich des Adversarial Training hat allerdings auch aufgezeigt, dass derzeit für Betrüger noch viel Spielraum besteht, durch gezielte, kaum wahrnehmbare Veränderungen des gefälschten Bildes die Enttarnung zu erschweren.
Insgesamt ergibt sich eine Sicherheitslage, welche von den neuesten Forschungsresultaten
im Bereich Deep Learning deutlich mitgeprägt wird. Der Graben zwischen echten und generierten Daten (wie Videos, Telefonaten etc.) wird in Zukunft weitgehend geschlossen sein. In gewissen Bereichen kann Sicherheit durch kryptografischen Zusatzaufwand gewährleistet werden. Wo dies nicht der Fall ist, wird der Sensibilisierungsgrad der Allgemeinheit entscheidend sein, damit die Vorteile von Deep Learning deren Risiken überwiegen.