Kurz gefasst: Automatisierte Bilderkennung in 3 Minuten
Haben Sie schon einmal ein Foto von sich auf Facebook, Twitter oder Instagram hochgeladen? Sie befinden sich in guter Gesellschaft: Jeden Tag teilen Millionen von Nutzern ihre Bilder auf sozialen Netzwerken. Facebook hat inzwischen eine der weltweit größten Datenbanken mit Fotos von Gesichtern aufgebaut und nutzt diese Daten, um seine künstliche Intelligenz (KI) gezielt auf visuelle Gesichtserkennung zu schulen.
Facebook muss nur einmal erfahren, wie Sie aussehen — es reicht ein Gruppenfoto, auf dem Sie von Ihren Freunden verlinkt werden. Dann erkennt Facebook Sie in Zukunft immer wieder, selbst wenn Sie nur im Hintergrund einer Aufnahme zu sehen sind. Darüber hinaus lernt Facebook auch, wie Sie sich im Laufe der Jahre verändern und identifiziert Sie zielsicher auf Fotos aus Ihrer Vergangenheit.
Doch nicht nur Facebook, sondern auch Ihr Smartphone verfügt mit hoher Wahrscheinlichkeit bereits über künstliche Intelligenz zur automatisierten Bilderkennung. Nutzen Sie ein modernes Mobiltelefon, können Sie es per Gesichtsabgleich entsperren oder Ihre Fotos nach bekannten Personen organisieren und durchsuchen. Anwendungen mit intelligenter Bilderkennung werden heutzutage in immer mehr Bereichen eingesetzt und beeinflussen unserem Alltag.
Was ist automatisierte Bilderkennung?
Jedes Gesicht ist ein Muster, das nach einem festen Schema aufgebaut ist. Sehen wir einen Mund, eine Nase und zwei Augen, weiß unser Gehirn, dass es sich dabei um ein Gesicht handelt. Anhand der charakteristischen Merkmale lernen wir, einzelne Gesichter zu unterscheiden und wiederzuerkennen.
Automatisierte Bilderkennung mithilfe künstliche Intelligenz funktioniert nach einem vergleichbaren Prinzip. Dabei kommen spezielle Deep Learning-Verfahren und künstliche neuronale Netze zum Einsatz, die Objekte auf Bildern identifizieren oder sie einer Kategorie zuordnen.
Deep Learning-Verfahren finden immer dann Anwendung, wenn andere maschinelle Lernverfahren aufgrund der riesigen Datenmengen (Big Data) und Komplexität der zu identifizierenden Muster an ihre Grenzen stoßen. Speziell in der Gesichtserkennung greifen die Systeme häufig auf soziale Netzwerke oder webbasierte Datenbanken zu, um aus der gewaltigen Datenmenge des Internets zu lernen.
Anwendungen, die auf neuronalen Netzen basieren, können nicht einmalig programmiert und danach sofort eingesetzt werden. Sie haben die Fähigkeit, selbständig zu lernen und komplexe Muster — wie zum Beispiel Gesichter — in Daten gezielt zu erkennen und zu identifizieren. Dafür müssen die künstlichen neuronalen Netze zunächst mit großen Datenmengen trainiert werden. Dabei lernen sie selbständig Regeln, um spezifische Problemstellungen, wie zum Beispiel die Bilderkennung, zu lösen.
Dafür treffen Algorithmen bestimmte Annahmen und hinterfragen diese kontinuierlich durch den Abgleich mit ihren Testdaten. So lernen künstliche neuronale Netze aus ihren Fehlern und Erfolgen und verbessern sich im Laufe der Zeit durch stetige Iteration, bis zum Beispiel bestimmte Personen auf Fotos korrekt wiedererkannt werden. Das bedeutet, dass die Algorithmen sich durch einen stetig wiederholten Abgleich der Daten schrittweise der richtigen Lösung annähern. So lernen sie erst Low-Level Elemente wie Helligkeitswerte auseinanderzuhalten, das heißt sie registrieren hellere und dunklere Pixel. In der nächsten Iteration erkennen sie zum Beispiel, dass einige Pixel zu Linien verbunden sind. Daraufhin unterscheiden sie zwischen horizontalen und vertikalen Linien. Dieser Prozess geht schrittweise immer weiter, bis auf mittlerer Ebene zum Beispiel Elemente wie Mund und Nase unterschieden werden können und schließlich High-Level ganze Gesichter erkannt werden.
Die nachfolgende Grafik zeigt schrittweise, wie automatisierte Bilderkennung bei Gesichtern funktioniert:
Quelle: spektrum.de
Bei der Gesichtserkennung werden Bilder in kleinste bedeutungsrelevante Bestandteile zerlegt. Dadurch lernen die Anwendungen, die dargestellten Gesichter zu identifizieren und können gezielt auf Gesichtserkennung trainiert werden.Die Stärke von Deep Learning-Verfahren und künstlichen neuronalen Netzen liegen dabei auf der Hand: Kein Mensch kann annähernd so viele Gesichter aus seinem Gedächtnis abrufen und so schnell abgleichen wie ein Supercomputer mit Zugriff auf die Datenpools dieser Welt.
Anwendungsgebiete von Bilderkennung
Neben der Gesichtserkennung wird automatisierte Bilderkennung in vielen weiteren Bereichen eingesetzt, wie nachfolgende Beispiele zeigen:
Medizin: Ärzte werden bei der Diagnose von Krankheiten unterstützt und Röntgenbilder oder CT-Aufnahmen auf Anomalien wie Krebstumore hin untersucht. Dabei übertreffen die Ergebnisse der automatischen Diagnose selbst die besten menschlichen Spezialisten. Wie ist das möglich? Selbst wenn die Spezialisten viele Jahre Erfahrung gesammelt haben, können sie niemals die Millionen an Bilddaten sichten, die beim Training von Anwendungen mit künstlichen neuronalen Netzen zum Einsatz kommen.Weitere spannende Anwendungsbeispiele aus der Medizin und speziell der Corona-Krise finden Sie in folgendem Beitrag: Chancen von KI in der Corona-Krise — Medizin.
E-Commerce: In Online-Shops wird eine intuitive und schnelle Suche nach passenden Produkten möglich. Der Nutzer muss keine langwierige Eingabe mehr vornehmen oder zahllose Filter einstellen, sondern kann einfach ein Bild von seinem gewünschten Produkt hochladen. Möchte er zum Beispiel eine neue Hose oder Jacke kaufen, fotografiert er einfach seine Lieblings-Kleidungsstücke und lädt diese beim Online-Shop hoch. Daraufhin erhält er passende Vorschläge, die den fotografierten Objekten entsprechen. Wenn der potenzielle Kunde auf die angezeigten Produkte klickt, lernt die künstliche Intelligenz mit jedem Klick seine Vorlieben besser kennen und optimiert fortlaufend die Produktvorschläge. Bei großen Online-Händlern wie Amazon, ebay oder Zalando ist die automatisierte Bilderkennung bereits Standard. Aber auch Nischen-Anbieter setzen Bilderkennung ein, um ihren Kunden zum Beispiel die einfache Auswahl der richtigen Dichtung zu ermöglichen. Bei tausenden von Dichtungen, die sich stark ähneln und dadurch selbst für Profis schwer zu unterscheiden sind, kann die künstliche Intelligenz durch das Hochladen eines Fotos mit der zu erneuernden Dichtung sofort das richtige Produkt finden. Online-Shops nutzen entsprechende Anwendungen auch für die Optimierung ihrer internen Abläufe, zum Beispiel zur automatischen Produkt-Kategorisierung. Die künstliche Intelligenz klassifiziert und benennt automatisch einzelne Elemente innerhalb von Bildern. Dadurch kann der Prozess zur Aufnahme neuer Produkte stark vereinfacht und beschleunigt werden.
Versicherung: Für die automatische Bewertung eines Schadensfalls, zum Beispiel an einem Auto, sollen bei Versicherern zukünftig wenige Fotos genügen. In einem Pilotprojekt der Talanx wird beispielsweise ein System eingesetzt, das mithilfe künstlicher Intelligenz innerhalb von Sekunden selbständig Bilder interpretieren und sogar die Kosten für die Reparatur des Schadens berechnen kann. Der Versicherer kann so in Zukunft innerhalb weniger Minuten und ohne menschliches Zutun einen Schaden regulieren. Auch für den Kunden ergibt sich dadurch eine enorme Zeitersparnis: Er muss mit seinem Smartphone nur einige Fotos von seinem beschädigten Auto aufnehmen und in der Schaden-App des Versicherers hochladen. Die App zeigt ihm, worauf er beim Fotografieren achten muss und kalkuliert ihm umgehend die Schadensumme. Noch prüfen menschliche Experten die Schäden, weil die künstliche Intelligenz laut Angaben von Talanx noch intensiv trainiert werden muss. Inzwischen sind bereits tausende von Fotos mit Kfz-Schäden durch das System gelaufen. Bei jeder Abweichung zwischen der Bewertung durch das System und dem Urteil der menschlichen Experten, passen die Entwickler die Algorithmen entsprechend an. So lernt das System immer besser zu unterscheiden, ob zum Beispiel weiße Stellen auf der Karosserie Schadensspuren oder doch nur Schneeflocken sind.
Ausblick und Grenzen
Automatisierte Bilderkennung begegnet uns bereits heute in vielen Bereichen unseres täglichen Lebens. Häufig geschieht dies, ohne dass wir uns dessen bewusst sind. Wer zum Beispiel auf Facebook seine Freunde markiert, nutzt bereits die künstliche Intelligenz des sozialen Netzwerks.
Mittlerweile gibt es bereits so ausgereifte Systeme, dass damit realistisch aussehende Gesichter künstlich erstellt werden können. Beispiele, die mit der KI des Chip-Herstellers Nvidia erzeugt werden, kann man unter ThisPersonDoesNotExist.com bewundern. Diese Webseite erzeugt bei jedem Aufruf ein neues Bild von einem Menschen, der gar nicht existiert. Täuschend echte Videos, die künstlich erstellt werden, sind der nächste Schritt.
Auf der anderen Seite scheitern die meisten künstlichen neuronalen Netze regelmäßig bei der Bilderkennung, wenn Objekte von der Norm abweichen und nicht richtig in den Kontext passen.
Forscher des Massachusetts Institute of Technology (MIT) haben rund vier Jahre lang eine Datenbank namens ObjectNet mithilfe von Hobby-Fotografen aufgebaut, in der rund 50.000 Fotos mit mehr als 300 Alltags-Objekten abgespeichert sind. Das Besondere: Die Objekte sind alle verdreht, teilweise verdeckt oder schräg fotografiert. So liegt ein Stuhl umgekippt auf dem Boden oder Schmutzwäsche über einem Sessel. Für Menschen sind diese Motive leicht erkennbar. Doch die Genauigkeit der automatisierten Bilderkennung liegt bei ObjectNet nur bei knapp über 50 Prozent, während bei klassischen Foto-Datenbanken die Werte meist über 90 Prozent erreichen. Das Ziel der Forscher ist es jedoch nicht nur, die Grenzen von künstlicher Intelligenz aufzeigen. Sie möchten in erster Linie KI-Software besser machen, um Risiken zu vermeiden. Ein Beispiel wären Unfälle, die durch den Einsatz von Bilderkennung in selbstfahrenden Autos verursacht werden.
Privatsphäre ade?
Eine weitere (Schatten-) Seite ist die Missbrauchsgefahr von automatisierter Bilderkennung.
Die New York Times schreibt in einem vielzitierten Artikel vom 18. Januar 2020 über das US-amerikanische Start-up Clearview, das für seine Gesichtserkennungs-Software über drei Milliarden Fotos in seiner Datenbank sowie 600 Strafverfolgungsbehörden als Kunden haben soll, und spricht bereits von einem möglichen “Ende der Privatsphäre, wie wir sie kennen”. Doch stimmt das wirklich?
Werden auch wir in Europa bald dauerhaft wie potenzielle Straftäter behandelt? Kann jeder binnen Sekunden alles über Sie in Erfahrung bringen? Erste Stimmen in Europa fordern eine klare Positionierung und ein Verbot des Einsatzes derartiger Software.
Im Bahnhof Berlin Südkreuz ist eine automatisierte Gesichtserkennungs-Software getestet worden und war während der gesamten Testphase stark umstritten. Die Technologie lieferte gute Ergebnisse und das Projekt wurde vom Bundesministerium des Innern, für Bau und Heimat als positiv bewertet. Für einen tatsächlichen Einsatz fehlt jedoch eine rechtliche Grundlage im Bundespolizeigesetz.
Auch die Stadt Mannheim testet seit November 2018 ein Videoanalyse-System. Hier sollen nicht Gesichter, sondern bedrohliche Gesten erkannt werden. Bis ein Anzeichen von Gewalt erkennbar ist, werden die Personen durch die Software abstrahiert und anonymisiert dargestellt. Wenn das System einen Akt von Gewalt verzeichnet, wird die Polizei auf den Videoausschnitt aufmerksam gemacht. Bisher wird die Lösung noch diskutiert. Sie zeigt jedoch einen Ansatz, wie KI-Anwendungen das Leben sicherer machen können, ohne dass der Datenschutz und die Privatsphäre des Einzelnen verletzt wird.
Was Sie über Bilderkennung wissen müssen:
- Macht sich Deep Learning und künstliche neuronale Netze zu Nutze
- Bilder werden als Muster erkannt und in verschiedene Elemente aufgeteilt (Pixelhelligkeit, Abstände bis hin zu Elemente wie Mund, Nase,..)
- Systeme der Bilderkennung umso präziser, umso mehr Trainingsdaten zur Verfügung stehen
- Breite Anwendungsbereiche von eCommerce bis hin zu Medizin und öffentlicher Sicherheit
Autor: Gregor Puchalla
Gregor Puchalla ist Gründer und Geschäftsführer von fintechcube. Zukunftstrends sind seine Leidenschaft. Gregor hat 15 Jahre Erfahrung auf operativer und strategischer Ebene im Bereich Digitalisierung.