Anzeige
Anzeige
Anzeige
Anzeige
Gesichtserkennung Austricksen 864511458 I Stockphoto Web
Mit Beginn der Ära des Deep Learnings hat sich die Genauigkeit der Bilderkennung ganz erheblich verbessert (Foto: iStockphoto)
KI Foto Künstliche Intelligenz

So einfach kann die Bilderkennung ausgetrickst werden

Facebook kann es, unsere Smartphones auch, Industriekameras sowieso – die intelligente Gesichtserkennung. Auf der einen Seite ein Wunder der Technik, auf der anderen auch beunruhigend. Noch lässt sich die KI dahinter leicht austricksen.

Anzeige
Anzeige
Anzeige

Exkurs: Künstliche Intelligenz & Deep Learning

Hinter der intelligenten Gesichtserkennung stecken künstliche Intelligenz und Deep Learning. Um zu wissen, wie die Erkennung funktioniert, muss man erst die Technologie dahinter verstehen.

Künstliche Intelligenz basiert auf maschinellem Lernen, also im Grunde der datengestützten, angeleiteten und anschließend automatischen Weiterentwicklung eines Algorithmus. Deep Learning setzt dem Ganzen noch einen drauf: Diese Form der künstlichen Intelligenz orientiert sich an den Prozessen des menschlichen Hirns. Künstliche, neuronale Netzwerke knüpfen Verbindungen oder löschen diese, wenn sie als falsch klassifiziert werden. Wie bei allen Lernprozessen gilt: Je größer und umfassender die Datenbasis für das Training der Algorithmen ist, desto präziser werden sie anschließend.

Mit Beginn der Ära des Deep Learnings hat sich die Genauigkeit der Bilderkennung ganz erheblich verbessert. Das lässt sich unter anderem durch die regelmäßigen Prüfungen des National Institute of Standards and Technology (NIST) erkennen. Bis ins Jahr 2011 hinein betrug die durchschnittliche Fehlerrate bei der Bilderkennung noch 28 Prozent. Das bedeutet, gut jedes vierte Bild konnte nicht exakt eingeordnet werden. Die Technologie war damit alles andere als zuverlässig.

Anzeige

Schon drei Jahre später konnte Googlenet jedoch in einem der größten Wettbewerbe zu dieser Disziplin, der ImageNet Large Scale Regognition Challenge (ILSVRC), diese Rate auf sieben Prozent senken und damit gewinnen. 2017 zeigten sich dann endgültig die Erfolge des Deep Learning und die Rate reduzierte sich auf 2,3 Prozent – Tendenz sinkend.

Neben der reinen Erkennung können die Algorithmen inzwischen auch Emotionen anhand von Mimik deuten. Das Deep Learning macht also alle Anstalten, den menschlichen Sinnen den Rang abzulaufen. Dennoch ist die Technologie nicht fehlerfrei und kann mit ein paar Tricks getäuscht werden.

Ctab Cover Contentbild
Die Zukunft des Arbeitens!

Jeder ist ersetzbar. Oder doch nicht? Unternehmen müssen umdenken. Das aktuelle LEAD Bookazine 1/2019 zeigt Cases für erfolgreiches Employer-Branding und wie Karrierenetzwerke dabei helfen, beruflich gesehen zu werden. Außerdem im Heft: eine Anleitung für erfolgreiches SEO und die Wahl des richtigen Influencers.

​Einfach mal den Störenfried spielen

Zusammengefasst gibt es zwei grundlegende Arten das Deep Learning zu überlisten: Zum einen mit Perturbation-Technologien und zum anderen mit tatsächlichen, haptischen Störquellen in der Szene selbst.

Perturbation bedeutet übersetzt nichts anderes als "Verwirrung" oder "Störung" - und genau das ist es, was diese Technik macht. Sie fügt Bildern ein Hintergrundrauschen hinzu, eine Verwirbelung oder Ähnliches, um die Erkennung zu stören und auszuschalten. Diese Maßnahmen nennen sich auch "Adversarial Attacks". Sie sind besonders effizient, da die Veränderungen mit bloßem Auge kaum bis gar nicht wahrzunehmen sind.

Wenn eine KI beispielsweise darauf ausgerichtet ist, die Ränder der Augen als Fixpunkte für eine Erkennung aufzuspüren, dann sorgt die Perturbation dafür, dass diese leicht verschwommen sind. Es gibt inzwischen eine ganze Reihe dieser Adversarial Attacks, wie die Momentum-Difference-, die Fast-Feature-Gradient- oder die Deepfool-Methode. Die Liste könnte noch eine Weile so weitergehen. Alle diese Methoden haben gemein, dass sie neuronalen Netzwerken bewusst modifizierte, externe Daten unterschieben, um eine Erkennung zumindest zu erschweren.

Eine weitere Unterteilung der Perturbation-Technologien erfolgt in Blackbox- und Whitebox-Methoden. Die Blackbox-Variante ist dabei um einiges einfacher umzusetzen. Für ihren Einsatz benötigen wir nur den Zugriff auf das eigentliche Bild, also den Input. Die Whitebox geht einen Schritt weiter. Hier brauchen wir den Zugriff auf das neuronale Netzwerk, das an der Erkennung arbeitet.

Ein Beispiel für diese Technik hat das Forschungsteam um Professor Parham Aarabi von der University of Toronto entwickelt. Der entstandene Algorithmus kann neuronale Netze so gut täuschen, dass eine zu 100 Prozent sichere Erkennung auf 0,5 Prozent gesenkt werden konnte. Nach mehreren Tests entwickelten die Forscher so einen Filter, wie wir ihn beispielsweise von Instagram kennen. Dieser lässt sich über Bilder legen, um einer Erkennung vorzubeugen.

Auch interessant: Künstliche Intelligenz in Deutschland

Der KI einen Bären aufbinden

Die haptischen Störquellen im Bild funktionieren etwas anders als die Perturbation-Technologien. Sagen wir, wir sehen eine ganz normale Szene in einem Klassenzimmer. Schüler auf ihren Stühlen, eine Lehrerin vorne an der Tafel. Soweit, so gut. Nun setzen wir in diese normale Szene einen dicken, bunten Bären aus Pappe hinein.

Wir Menschen führen in so einer Situation automatisch einen Plausibilitätscheck durch. Wir fragen uns: Ein Bär im Klassenzimmer? Dann sehen wir noch ein zweites Mal hin, um die Situation genau zu verstehen und einzuordnen. Neuronale Netzwerke hingegen sind mit diesen Situationen heute noch überfordert und lassen sich von der tierischen Störquelle völlig verunsichern.

Nach dem gleichen Prinzip funktioniert ein Sticker, den einige Google-Forscher gemeinsam entwickelt haben. Der bunte Aufkleber kann, getragen in der Nähe des Gesichts wie am Kragen der Jacke, die KI ablenken. Sie konzentriert sich dann nur noch auf die leuchtende Störung und ignoriert das Gesicht, was die Erkennung verhindert.

Wo die Reise hingeht

Eines steht fest: Die Entwicklung der Algorithmen steht nicht still. Was heute noch unvorstellbar wirkt oder zumindest nicht umsetzbar ist, kann morgen schon Realität sein. Nicht nur Unternehmen wie Google, auch Riesen wie Microsoft, arbeiten mit Nachdruck an der Verbesserung der Technik. Bei all dem Austricksen dürfen wir jedoch nicht vergessen, dass die intelligente Bild- und Gesichtserkennung genauso ihre Vorzüge hat.

So kann eine intelligente Videoauswertung in Echtzeit dabei helfen, Menschenleben zu retten. Wenn beispielsweise ein Mensch an einer U-Bahn-Station zusammenbricht, kann automatisch ein Notruf ausgesendet werden, um schnellstmöglich Hilfe zu organisieren. Für eine unkomplizierte Sicherung der eigenen Endgeräte, können Nutzer statt des Passworts oder Fingerabdrucks einen Gesichtsscan als Entschlüsselung nutzen und Unternehmen können verschiedene, gesicherte Bereiche in Gebäuden über den Scan verschließen oder freigeben.

Natürlich gibt es noch viele weitere, mögliche Einsatzszenarien. Letzten Endes hängt es von uns ab, ob wir die künstliche Intelligenz für den Mehrwert Aller einsetzen oder aber als Bedrohung sehen.

Auch interessant: Warum sind Smartphone-Kameras eigentlich so gut?

Über den Autor: Als Experte für künstliche Intelligenz und Geschäftsbereichsleiter ist Frank Schönefeld bereits seit über 20 Jahren bei T-Systems Multimedia Solutions. Nach seiner Promotion war er zuvor unter anderem Head of Software Development bei Siemens Nixdorf Advanced Technologies.

Anzeige
Anzeige
Verlagsangebot
Anzeige
Anzeige
Aktuelle Stellenangebote
Alle Stellenangebote