Automatisiert analysiert

Wie KI-basiertes Image- und Video-Mining die Medienproduktion von heute revolutionieren wird

FKT Magazin 11/2019
Technologien & Lösungen

Dass sich die Medienbranche in den letzten Jahren gleich mehreren Umbrüchen konfrontiert sieht, ist hinlänglich bekannt: So müssen aufgrund des rasant steigenden Datenaufkommens, der Akzeptanz neuer Nutzungskanäle und neuer Konsumverhalten ganze Unternehmensbereiche umstrukturiert, Workflows digitalisiert, Systeme integriert und Schnittstellen geschaffen werden, um vorhandene Prozesse effektiver und kosteneffizienter zu machen.

Vor allem Medienunternehmen mit großen Bild- und Video-Produktionsvolumina fällt dieser Schritt in Zeiten von ALL-IP und 5G merklich schwerer. Manuelle Prozesse in den eigenen Produktionsabläufen hemmen zudem eine schnelle Digitale Transformation der Unternehmen. Heutzutage stehen wir deshalb erst am Anfang einer reinen digitalen Wertschöpfungskette in der Medienproduktion und -dokumentation.

Doch treten wir an dieser Stelle einen kleinen Schritt zurück und überlegen kurz, was die Grundlage unserer alltäglichen Arbeit ist. „Wir wollen Bilder und Videos erschaffen und diese anderen zugänglich machen. Zurück zum Problem: Wie kann ich mein Medienunternehmen in diesen herausfordernden Zeiten fit für einen digitalen Wandel machen, wenn ich die grundlegenden Daten, mit denen ich jeden Tag zu tun habe, gar nicht richtig verstehe oder verstehen kann?“

Aktuell schließen Medienunternehmen diese Lücke, indem sie gut geschulte Dokumentarinnen und Dokumentare dazu einsetzen, genau diese Daten ausführlich beschreiben zu lassen. Doch dadurch wird das Problem lediglich aufgeschoben. Denn in den nächsten zwei Jahren wird sich alleine der Video-Traffic verdoppelt haben – was im Umkehrschluss bedeutet, dass diesen Mitarbeitern nur noch die Hälfte der Zeit zur Verfügung stünde, um die Assets ausführlich beschreiben zu können. SWR-Experte Lorenz Bockisch zufolge benötigte ein Dokumentar im Jahr 2017 dafür noch durchschnittlich das Achtfache der Lauflänge eines Beitrags. Die Frage, die sich hierbei stellt: Sind Dokumentarinnen und Dokumentare in der Zukunft in der Lage, die hohe Qualität der Verschlagwortung ohne softwaregetriebene Unterstützung zu halten oder der Datenverarbeitung gerecht zu werden?

Künstliche Intelligenz (KI) mit ihren tiefen neuronalen Netzen brachte vor einigen Jahren den Durchbruch im computergestützten Verstehen von Bildinformationen und bringt heute neue Möglichkeiten einer effektiveren Medienproduktion, -dokumentation und Verwertung hervor. Die automatisierte und intelligente Gewinnung von Metainformationen ist dabei die Grundlage eines besseren Verständnisses von Bild- und Videodaten und der Anfang einer Revolution.

Was ist heute schon möglich?
Viele Unternehmen haben bereits schon die ersten Erfahrungen mit Kognitiven Diensten (KI-Services) gesammelt. So dürften Begrifflichkeiten wie Gesichtserkennung, Objekterkennung, Text-to-Speech oder OCR vielen bekannt sein. Diese Verfahren müssen jedoch nicht immer etwas mit KI (tiefen neuronalen Netzen/deep learning) zu tun haben, sondern können auch auf klassischen Computer-Vision-Algorithmen aufsetzen. Denn grundsätzlich gab es die Gesichtserkennung auch schon ohne KI-Ansätze – eben nur mit einer sehr viel geringeren Genauigkeit.

Das tiefe maschinelle Verstehen von Bilddaten ist hingegen nicht trivial. Die Transformierung von größtenteils unstrukturierten Daten in strukturierte Daten, also der Gewinnung von maschinenlesbaren Informationen aus vormals unzugänglichen Daten, ist sehr komplex. Denn für eine Maschine sehen Bilder oder das Einzel-Frame eines Videos – einfach ausgedrückt – nur wie die wirre Aneinanderreihung unterschiedlich farbiger Pixel aus. Daraus also Muster in Mustern zu erkennen und wiederum Rückschlüsse zu ziehen, ist sehr schwer.

Ein Bild oder ein Video kann in seiner ganzheitlichen Betrachtung sehr viele Bildinformationen zur selben Zeit enthalten. Es reicht daher nicht aus, nur ein einziges neuronales Netz für alle Konzepte gleichzeitig einzusetzen. So setzen aktuelle Lösungen auf eine Kombination von mehreren neuronalen Netzen. Als Beispiel könnte sich ein neuronales Netz ausschließlich um die Erkennung von Gesichtern kümmern, wohingegen ein zweites neuronales Netz Objekte oder Szenen erkennen würde und ein drittes neuronales Netz die Transkription von Sprache zu Text realisiert. Die Kombination aus vielen verschiedenen KI-Algorithmen ergibt also das Resultat einer umfassenderen Analyse, was dem Grundgedanken einer intelligenten Medienproduktion und -archivierung nahekommt.

Seit 2016 setzt das von Softwareentwicklern und Filmemachern initiierte Technologie-Start-up „The Chainless“ genau hier an und entwickelt mit Medien- und Technologieunternehmen und renommierten Forschungseinrichtungen das Produkt „DeepVA“, ein anpassungs- und leistungsfähiger KI-Mining-Service zur automatisierten Erkennung und tiefen Analyse von visuellen Inhalten.

Dabei schlägt das Start-up andere Wege ein, als wir es von großen Technologieunternehmen kennen und entwickelt eine ganze Reihe weiterer Lösungen, die für den gezielten Einsatz von KI im professionellen Medienumfeld konzipiert wurden. So erschließt die KI-Lösung nicht allein Inhalte wie bekannte Persönlichkeiten des öffentlichen Lebens oder alltägliche Konzepte – es unterstützt vielmehr die einfache Integration und Nutzung des KI-basierten Visual-Minings in kundenspezifische Workflows und Systeme unter der strikten Berücksichtigung europäischer Datenschutzrichtlinien.

Wie eingangs erwähnt ist es für Medienunternehmen sehr wichtig, Bild- und Video-Daten grundlegend zu verstehen. Denn hat man diese Informationen erst einmal erhoben, so können damit weitere Anwendungsfälle relativ schnell realisiert und optimiert werden. Ein Beispiel wäre hier die autonome Steuerung von Kamerasystemen bei Sportveranstaltungen oder Nachrichten zu nennen.

Eine Face-Detection ist die Bestimmung des Bereichs im Bild, in dem ein Gesicht erkannt und verortet wurde. Im Gegensatz zur Face-Recognition (Gesichtserkennung) möchte man hier jedoch nicht dem Gesicht einem Namen zuordnen, sondern nur die Position des Gesichtes bestimmen. Das Ergebnis der Face-Detection sind X- und Y-Koordinaten des Bereichs. Diese Information könnte man für eine autonome Steuerung nutzen, um Kameras zu steuern, die das Gesicht der Moderatorin oder des Moderators automatisiert verfolgt und korrekt in Szene setzt.

Sobald bei einem Mining nicht mehr auf vorgefertigte KI-Modelle (sogenannte Pre-Trained Models) von bekannten Technologieunternehmen zurückgegriffen werden kann, weil diese vortrainierten Modelle zum Beispiel keine deutschen, regionalen Persönlichkeiten erkennen können, kommt das Unternehmen nicht um das Training eigener KI-Modelle herum.

Vielen Medienunternehmen stehen zwar ausreichend viele Daten zur Verfügung, diese sind aber nicht ohne weiteres nutzbar und müssen sehr aufwendig in manueller Arbeit erschlossen werden. Um zum Beispiel regionale Persönlichkeiten erkennen zu können, müssten Dokumentarinnen und Dokumentare nun mehrere hundert, oder gar tausende Bilder der jeweiligen Person manuell sammeln, die Gesichter anschließend bescheiden und mit dem korrekten Namen beschreiben. Dieses Vorgehen ist sehr zeitaufwändig.

Der Bayerische Rundfunk hat diesen Aufwand im Zuge einer Masterthesis von Franziska Mertl bewertet. Für 641 Videos mit einer Gesamtfilelänge von 300:36:14 Stunden hätte die Mitarbeiterin oder der Mitarbeiter bei einer 40 Stundenwoche circa 16,87 Wochen für die Erstellung von Trainingsdaten benötigt.

DeepVA ist jedoch mit seiner Funktionalität in der Lage, die Dokumentation eines Medienarchives auch bei der sehr aufwendigen Erstellung von KI-Trainingsdaten sowie dem Erlernen neuer KI-Erkennungsmodelle zu unterstützen. Vollautomatisierte Verarbeitungsprozesse sind die Grundlage für dessen reibungslosen und kosteneffizienten Einsatz der KI-Modelle.

der Erstellung von KI-Trainingsdaten gemessen. Für die gleichen 641 Videos benötigte das System ohne jedes menschliche Zutun nur circa vier Tage.

Dass KI ein erstaunliches Potenzial birgt, wie Medienunternehmen Inhalte beschaffen, bearbeiten und bereitstellen, dürfte somit immer klarer werden. Sie kann Workflows effizienter gestalten, Inkonsistenzen verringern und zu einer gesteigerten Wertschöpfung beitragen.

Weitere Informationen: https://deepva.com

Ähnliche Beiträge