Kurz gefasst: Bewegtbild-Analyse in 3 Minuten
Mit der zunehmenden Multimedialität gewinnen Videos als Form der Kommunikation mehr und mehr an Bedeutung. Dies spiegelt sich auch im Erfolg von Plattformen wie TikTok, Instagram, Facebook oder YouTube wider. Pro Minute werden 300 Stunden Videomaterial auf YouTube hochgeladen. Unternehmen filmen ihre Produktionsanlagen, öffentliche Plätze werden mit Videokameras überwacht und Sport-Events sowie Pressekonferenzen per Video übertragen. Videomaterial trägt damit einen großen Teil der Big Data bei, die täglich produziert werden. Um diese wertvollen Daten nutzbar zu machen, braucht es entsprechende Analyse-Tools. Dabei müssen große Mengen und vor allem verschiedene Datenformate verarbeitet werden. Um diese Aufgabe zu bewerkstelligen, wird in der Auswertung von Bewegtbildern künstliche Intelligenz (KI) eingesetzt. Was kann die Technologie schon heute leisten?
Was ist Bewegtbild-Analyse?
Der Begriff Bewegtbild-Analyse oder auch “Video Content Analysis” beschreibt verschiedene Analyse-Methoden zur Auswertung von Videomaterial, die durch künstliche Intelligenz gestützt werden. Hier kommen unter anderem Methoden der Bilderkennung für die Auswertung der einzelnen Frames zum Einsatz. Durch die Vielzahl der Bilder benötigen Videoanalyse-Programme eine sehr hohe Rechenleistung. Für die genauen technologischen Details lesen Sie unser “Kurz gefasst: Automatisierte Bilderkennung in 3 Minuten.”
Die Bewegtbild-Analyse umfasst eine Vielzahl visueller Funktionen, wie beispielsweise die Verfolgung von Objekten und Personen, ihre Klassifizierung und Zählung, die Identifikation von Personen sowie das Erkennen von Mimik und Bewegungsabläufen.
Zur Auswertung der Tonspur werden Methoden des Natural Language Processing angewendet. Künstliche Intelligenz ist bereits heute in der Lage in Echtzeit Audio-Dateien zu transkribieren, Musikstücke zu erkennen, Videoabschnitte mit Schlagworten zu markieren oder das gesprochene Wort in eine andere Sprache zu übersetzen und Untertitel einzublenden.
Bewegtbild-Analyse in der öffentlichen Sicherheit
Ein Bereich in dem Videoanalyse immer wichtiger wird, ist die öffentliche Sicherheit. Für das Auffinden von Einbrechern oder verdächtigen und vermissten Personen haben Videoanalyse-Tools ein enormes Potenzial. Im ersten Schritt können solche Programme helfen, Daten zu selektieren. Künstliche Intelligenz kann sämtliche Details der einzelnen Frames erkennen, was dem menschlichen Auge auf Dauer nicht möglich ist. Erkennt das System eine verdächtige Aktivität, eine Person, ein Kennzeichen, wird das Bild markiert und der Nutzer erhält eine Benachrichtigung. Dieser kann entscheiden, ob das vorausgewählte Videomaterial hilfreiche Informationen enthält.
Existiert von einer gesuchten Person lediglich eine grobe Beschreibung, beispielsweise zur Kleidung, sind intelligente Systeme bereits in der Lage, Bewegtbilder anhand vorgegebener Kriterien zu scannen. Diese Funktion wird unter anderem von Motorola Solutions angeboten und als “Appearance Search” bezeichnet. Mithilfe von Deep Learning hat der Anbieter für sicherheitskritische Lösungen eine Art Videosuchmaschine entwickelt. Die künstliche Intelligenz kann mehrere Stunden Filmmaterial nach Personen und Fahrzeugen durchsuchen. Hier können nicht nur Merkmale wie die Größe, Kleidung oder Haarfarbe einer Person erfasst werden, sondern auch sehr detaillierte Angaben wie Gesichtszüge.
Bewegtbild-Analyse in der Wartung und Instandhaltung
Die Deutsche Bahn nutzt Videoüberwachung in Kombination mit einem KI-basierten Analyse-Tool, um ihre Bahnsteige, Gleise und Zugänge zu kontrollieren. Sobald das System eine Person erkennt, wird diese verpixelt und gezählt. So soll trotz hoher Auslastung ein reibungsloser Betrieb gewährleistet werden und die Fahrgäste anonym bleiben. Des Weiteren kontrollieren Wetterkameras Schneefall oder starken Regen. Sind Gleise oder Bahnsteige nicht geräumt, wird die Logistik vom System informiert, um gegebenenfalls Dienstleister zu beauftragen.
Nicht nur im öffentlichen Verkehr, auch in der Industrie und Landwirtschaft wird Videoanalyse eingesetzt. Künstliche Intelligenz erkennt Anomalien auf Videomaterial und kann so beispielsweise feststellen ob Maschinen defekt sind, langsamer produzieren oder sonstige Schäden vorliegen. So kann vorausschauend erkannt werden, ob eine Maschine gewartet werden muss (Predictive Maintainance). Vielerorts fliegen Drohnen über Felder und kontrollieren mit Kameras den Zustand der Pflanzen. Intelligente Assistenzsysteme schlussfolgern aus dem Videomaterial Handlungsempfehlungen, die sie den Landwirten an die Hand geben.
Videoanalyse im Journalismus
Im Sport wird Bewegtbild-Analyse eingesetzt, um Spielzüge oder Fouls zu erkennen. Ein Beispiel ist das System NTT DATA, das beim 148. “The Open”-Golfturnier im Jahr 2019 verwendet wurde. Neben der Live-Übertragung der Spiele versorgte die Software die Zuschauer mit Spielanalysen und 3D-Animationen von Bewegungsabläufen. Das Programm erkannte selbstständig Spielernamen sowie Lochpositionen. Die KI analysierte die Körperhaltung und Mimik der Spieler und erstellte daraus Prognosen für die Abschläge. Die Auswertungen der künstlichen Intelligenz können auch von den Trainern herangezogen werden, um Schwachstellen zu erkennen und neue Strategien auszuarbeiten.
Nicht nur im Sportjournalismus, Medienschaffende profitieren in vielen Bereichen von Videoanalyse-Tools. Statt stundenlang Videomaterial zu sichten, fassen intelligente Systeme automatisch den Inhalt ausgewählter Video-Abschnitte zusammen. Sie können anhand von Merkmalen Bewegtbilder mit Keywords markieren und in Kategorien einteilen. Im Zusammenhang mit Media-Monitoring werden erste Programme entwickelt, die erkennen, ob nachträglich Elemente zum Video hinzugefügt wurden, um so Manipulationen zu identifizieren. Solche Anwendungen gewinnen im Kampf gegen Fake News mehr und mehr an Bedeutung.
Ein recht neues Feld der Videoanalyse ist die Sentiment-Analyse, auch als Opinion Mining bezeichnet. Dabei handelt es sich um eine Form des Natural Language Processing, die die grobe Stimmung eines Videos erkennen soll. Bisher ist das Zuordnen von Emotionen und Meinung für Algorithmen eine schwierige Aufgabe. Die Zuordnung und Vertaggung von Medien-Inhalten erfolgt daher noch oft manuell. Diese Datenbasis kann zum Training von KI-Systemen genutzt werden. Eine erste Methode, die zusätzlich zu den Trainingsdaten herangezogen wird, ist eine Punktebewertung nach Kategorien. Wird ein negativ konnotiertes Stichwort mehrfach gezählt, so wird das gesamte Video entsprechend bewertet — je nach Relation der positiven Stichworte. Die Sentiment-Analyse hat vor allem Bedeutung für die Meinungsforschung sowie das Marketing.
Ausblick
Das Volumen von Videodaten und Videonutzung nimmt immer weiter zu. Die Auswertung von Videodaten wird in diesem Zusammenhang an Bedeutung gewinnen. Bisher sind Videoanalyse-Systeme oft in der Kritik. Sicherheitssysteme schlagen Alarm, weil sie Gesten missinterpretieren oder die falsche Person erkennen. Diese “False Positives” entstehen häufig aufgrund der schlechten Kameraqualität von Überwachungskameras zusammen.
Liefern Kameras hochwertigeres Bildmaterial, können Algorithmen mit qualitativen Trainingsdaten versorgt werden und auch in der Echtzeit-Analyse bessere Ergebnisse erzielen. Hoch-auflösende Videokameras werden immer günstiger, sodass auch Analyse-Tools ihre Qualität steigern werden.
Offen bleibt jedoch die ethische Diskussion. Wollen wir jederzeit an öffentlichen Plätzen sichtbar und identifizierbar sein? Skandale wie die von Clearview oder dem chinesischen Unternehmen Sensetime zeigen uns ein dystopisches Weltbild. Wie sichtbar möchten wir in Zukunft für Algorithmen sein?
Was ist Bewegtbild-Analyse?
- Methoden der Videoauswertung gestützt mit künstlicher Intelligenz
- Vereint Bilderkennung und Natural Language Processing
- Bewegtbild-Analyse hat großes Potenzial für die öffentliche Sicherheit, Wartung & Instandhaltung und Journalismus