Künstliche Intelligenz in der Media Supply Chain

FKT Magazin 7/2021
AI
Artificial intelligence
arvato Systems S4M GmbH
Technologien & Lösungen

Das Thema Künstliche Intelligenz (KI) ist längst im Mainstream angekommen – beispielsweise wenn uns das Navigationsgerät den optimalen Weg von A nach B vorschlägt, mit einem Zwischenstopp bei der günstigsten Tankstelle und mit möglichst geringem Verkehrsaufkommen. Oder wenn wir komplette Texte innerhalb weniger Augenblicke nahezu fehlerfrei automatisch in eine beliebige Sprache übersetzen lassen möchten.

Das Thema Künstliche Intelligenz (KI) ist längst im Mainstream angekommen – beispielsweise wenn uns das Navigationsgerät den optimalen Weg von A nach B vorschlägt, mit einem Zwischenstopp bei der günstigsten Tankstelle und mit möglichst geringem Verkehrsaufkommen. Oder wenn wir komplette Texte innerhalb weniger Augenblicke nahezu fehlerfrei automatisch in eine beliebige Sprache übersetzen lassen möchten.

Was früher noch als technologisch äußerst beachtlich bezeichnet wurde, ist für uns längst zur Gewohnheit geworden und somit findet KI unbewusst immer mehr Anwendung in unserem Alltag. Bis zu 84 Prozent aller Konsumenten nutzen irgendeine Form von KI täglich in unterschiedlichen Lebensbereichen und lediglich 33 Prozent sind sich darüber im Klaren. Umso erstaunlicher ist es, dass weniger als sechs Prozent der Unternehmen der Medien- und Unterhaltungsbranche KI bereits in Form von Computer Vision, Voice Recognition oder NLP in ihre Geschäftsprozesse integriert haben. [1] Woran liegt es, dass KI im privaten Umfeld fast nicht mehr wegzudenken ist, gleichzeitig aber viele Unternehmen bei der Implementierung zögerlich agieren und wertvolles Potential nicht ausschöpfen? Experten bezeichnen die Künstliche Intelligenz sogar als einen der maßgeblichen Erfolgsfaktoren für die Medienbranche.  

Vorgefertigte KI-Modelle klingen zunächst auf dem Papier vielversprechend, bieten aber im Bereich Computer Vision oftmals nicht den erhofften Mehrwert, um ohne Anpassungen in Unternehmensprozesse integriert zu werden. So ist es wichtig, Entitäten in visuellen Medientypen wie Bildern, Videos oder Livestreams zu erkennen, die nicht unbedingt Teil einer vortrainierten KI sind und somit von Basismodellen nicht erfasst werden können. Auch Roboter bzw. KI-Modelle müssen trainieren, um „in Form“ zu bleiben und die Kosten für einen Einsatz in der Produktionskette eines Unternehmens zu rechtfertigen. Dies ist ohne die ständige Anpassung an spezifische Anforderungen und Inhalte unmöglich. Daher reichen generische Erkennungsdienste von Personen oder Objekten nicht aus. Zu sehr unterscheiden sich die Inhalte der Bilder und Videos und zu divergent sind die Anwendungsgebiete, um mit dem derzeitigen Angebot an Produkten eine unmittelbar zufriedenstellende Lösung zu erreichen.

Die entsprechenden Werkzeuge dafür müssen also direkt in der Applikation transparent zur Verfügung gestellt werden, damit Unternehmen bzw. deren Nutzer die Möglichkeit haben, vorgefertigte KI-Modelle präzise und unkompliziert an ihre Ansprüche anzupassen. Wie dies aus unserer Sicht aussehen kann, zeigen wir im Folgenden mit unserer Integration von DeepVA als eigenständigen Service in VidiNet.

Wie funktioniert das Training eines KI-Modells?
KI-Anwendungen im Bereich Computer Vision haben in den letzten Jahren revolutionäre Fortschritte gemacht. In einigen Aufgaben der Bilderkennung wurde die Performance des Menschen sogar schon übertroffen. Beim Menschen spricht man von einer durchschnittlichen Fehlertoleranz von fünf Prozent, einige KI-Lösungen hingegen erreichen bereits schon Fehlerquoten von unter einem Prozent [2]. Kein Wunder also, dass Medienunternehmen gerade jetzt das riesige Potenzial erkennen, um Deep Learning für ihre Workflows einzusetzen. Wenn wir von KI-Modellen sprechen, dann handelt es sich zunächst um mathematische Algorithmen, die anhand von Beispieldaten und menschlichem Experteninput „trainiert“ wurden. Diese Algorithmen sollen Entscheidungen nachbilden, die ein solcher Experte treffen würde, wenn er dieselben Informationen zur Verfügung hätte. In „Deep Neural Networks“ werden bei diesem Training sogenannte Gewichte justiert und festgehalten, so dass die Trainingsdaten genau dem erwarteten Output des KI-Experten entsprechen würden. Dieser Vorgang wird so lange wiederholt, bis alle Inputdaten genau dem gewünschten Output entsprechen. Dabei gilt die allgemeine Regel: Je mehr qualitative Trainingsdaten vorliegen, desto besser kann das Neuronale Netz generalisieren und genauere Ergebnisse zurückliefern. Die Ergebnisse des Modelltrainings können für eine sogenannte Inferenz verwendet werden, das heißt für die Erstellung von Vorhersagen für neue, unbekannte Input-Daten. Ein KI-Modell ist deshalb eine destillierte Darstellung dessen, was ein maschinelles System gelernt hat. Es nimmt Anfragen in Form von Eingabedaten entgegen, macht eine Vorhersage zu diesen Daten und liefert dann eine Antwort zurück.

Die Herausforderung individualisierter KI
Mit einem vortrainierten KI-Modell kann deshalb ein Anbieter von Recognition Services logischerweise auch nur den Erkennungsumfang zurückliefern, der dem KI-Modell über Trainingsdaten auch antrainiert wurde. Dies bietet für Medienunternehmen Vor- und Nachteile. Der Vorteil ist einerseits, dass eine Klassifizierung von allgemeinen Bildinhalten schnell implementiert werden kann, der große Nachteil andererseits, dass medien- und unternehmensspezifische Use Cases nicht vollumfänglich abgedeckt werden können. Darüber hinaus halten sich die meisten Anbieter eher bedeckt darüber, welche und wie viele Klassen, Identitäten usw. sie mit ihren KI-Modellen abdecken. Dies erschwert es Unternehmen zusätzlich, diese Anbieter zu vergleichen. Zeitgleich suchen sie aber ausdrücklich nach Lösungen, die eine Anpassung oder Individualisierung von KI-Modellen ermöglicht und dabei die Hoheit ihrer Daten sichert. Es ist jedoch nicht trivial, eine maßgeschneiderte KI-Lösung zu implementieren. Der Aufbau eigener Modelle besteht aus einem langwierigen und komplexen Prozess, dessen erfolgreicher Ausgang ungewiss ist. Data-Scientisten und Machine-Learning-Ingenieure müssen ein hohes Maß an Wissen und Expertise einbringen. Komplexe Algorithmen werden implementiert und mit großen Trainingsdatenbanken gefüttert. Diese Daten müssen erhoben, strukturiert verwaltet, stetig aktuell gehalten und akkurat beschrieben werden. Bevor daraus KI-Modelle entstehen und diese einen produktiven Einsatz finden können, müssen sie ausgiebig mit unabhängigen Testdaten auf ihre Leistungsfähigkeit validiert werden. Das Deployment dieser Modelle und die Integration in bestehende Enterprise Workflows ist eine ganz andere Herausforderung und bedarf in der Regel eines ganzen Entwicklerteams. Interdisziplinäre Kompetenzen sind demnach gefragt, um KI mit den alltäglichen Medienworkflows zu verschmelzen. Für Medienhäuser scheint diese Herausforderung nur sehr schwer zu bewältigen zu sein.

Wie kam es zur Kooperation von DeepVA und dem Arvato Systems Vidispine-Team?
Die Aufnahme der ersten Gespräche zur Zusammenarbeit kam auf einem der letzten physischen Live-Events in 2020 zustande, dem FKTG-KI-Panel auf der Hamburg Open [3], an dem Christian Hirth und Ralf Jansen teilnahmen, sich kennenlernten und dann im Anschluss ein Follow-Up vereinbarten. Dieser Termin entpuppte sich dann auch als Glücksgriff insofern, dass beide Parteien die Idee fasziniert, Medienworkflows maximal zu automatisieren und das mit den progressivsten Tools aus dem IT-Werkzeugkasten, nämlich KI im Bereich Computer Vision. Das Vidispine-Team und DeepVA stellten sich gemeinsam die zentrale Frage, wie diese Werkzeuge direkt in die gewohnte Umgebung der Nutzer gebracht werden könnte. Der Nutzer soll außerdem in die Lage versetzt werden, die Erkennung von Entitäten, die Erstellung eigener KI-Modelle und die Qualitätssicherung seiner Trainingsdaten eigenhändig überwachen und steuern zu können. Die Mission ist es, jedem Unternehmen und Nutzer das Potential von KI zugänglich zu machen, ohne dabei Vorwissen und  Expertise in diesem Gebiet zu fordern. Genau daraus ergibt sich die Stärke der Zusammenarbeit. DeepVA bietet KI für Medienworkflows und Vidispine liefert mit VidiNet und den dazugehörigen VidiNet Cognitive Services sowie VidiCore ein hochintegriertes MAM-Ökosystem.

In einer integrierten Lösung zweier Systeme müssen ähnliche Features und Konzepte von Anfang an zur Verfügung stehen, um reibungslose Abläufe zu garantieren. Terminologien aus dem Bereich Data Science müssen in die Welt des Media Asset Managements transferiert werden. Die gute Nachricht ist, dass das Modell von Vidispine bereits vergleichbare Entitäten vorsieht. Der Grundstein für die Kommunikation beider Plattformen war somit gelegt. 

Deep VA  // Entity Vidispine
Dataset // Collection
Class // Item
Sample // Shape

Die Organisationsstruktur von Trainingsdaten Das Training von KI-Modellen, die von visuellen Daten getrieben werden, arbeitet mit Beispieldaten, sogenannten Samples. Bei diesen Samples handelt es sich ebenfalls um Medienobjekte, genauer gesagt um einzelne gelabelte Bilder. Diese Bilder werden wiederum in Klassen organisiert (eine Klasse stellt jeweils eine Person dar, von der es mehrere Beispielbilder geben kann). Klassen können in Datasets organisiert werden. Trainingsdaten bilden somit das Kernstück eines eigenen KI-Modells. Einmal angelernt sind sie im Gegensatz zum manuellen Beschreiben und Taggen von visuellem Content hoch skalierbar und 24/7 einsatzfähig. Entsprechend wertvoll sind diese Samples, die nicht umsonst als das Gold des datengetriebenen Jahrhunderts gelten.  

Während die Verwaltung der Trainingsdaten auf der DeepVA Plattform schon immer als Funktion zur Verfügung steht, beinhaltet unser Entwurf nun auch die Möglichkeit, diese in VidiNet bzw. innerhalb der MAM-Oberfläche zu verwalten. Sie werden im Hintergrund automatisch synchronisiert, so dass die Funktionalität zur Organisation nun auch in der vertrauten MAM-Umgebung angeboten werden kann. Diese Form der Integration bringt mehrere Vorteile und Vereinfachungen mit sich.

KI in der gewohnten MAM-Umgebung
Aus Benutzerperspektive bietet das Userinterface neben der Verwaltung der regulären Medienobjekte nun auch eine integrierte Trainingsapplikation, welche als Beispielapplikation, aber auch als Komponente im Vidispine SDK für Benutzeroberflächen bereitgestellt wird. Diese ist einfach mittels Top-Navigation erreichbar. Die Trainingsdaten erscheinen analog zu regulären Assets als Medienobjekte. Mit Hilfe einer Suchfunktion und mit Hilfe von Filtern können sie einfach gefunden werden. Eine Detaildarstellung einer Trainingsklasse zeigt alle dazugehörigen Samples, sowie deren jeweiligen Trainingsstatus. Zusätzlich existiert eine Übersicht, in welchen Videos die aktuelle Trainingsklasse vorkommt. Timecode-akkurate Links erlauben ein Springen direkt an die Stelle im Player. Per Drag & Drop können die Trainingsklassen in Datasets organisiert werden. Ist ein Dataset zur Zufriedenheit mit Trainingsdaten erstellt, kann dieses einfach per Knopfdruck oder automatisiert per API-Call trainiert werden. Einige Sekunden später seht das Modell für die nächste Analyse von Bildern und Videos zur Verfügung. Zudem lassen sich mit Hilfe der Datasets auch Teamaufgaben definieren, z. B. wer wann welche Entitäten in das System einpflegt und in welchen Abständen das Modell aktualisiert wird. Somit haben die Anwender sowohl die Erkennungsqualität als auch die Aktualität ihres Systems selbst in der Hand. 

Aber wie kommen die Trainingsdaten ins System?
Für das Erstellen von gelabelten Trainingsdaten werden drei unterschiedliche Ingestwege angeboten. Sie können per Upload (API/UI) der VidiCore-Instanz hinzugefügt werden. Weitaus interaktiver gestaltet sich das Hinzufügen von Trainingsdaten mit Hilfe der Grabbing-Funktionalität direkt aus dem Player. Einfach kann das Objekt mittels Selektor-Tool entsprechend markiert und mit einem Label versehen werden. Trainingsklassen können dabei neu erstellt, bestehende Klasse können aber ebenso durch zusätzliche Samples erweitert werden. Sollte sich Videomaterial mit entsprechend analysierbaren On-Screen-Graphics (Bauchbinden) im Zugriff befinden, können die Trainingsdaten auch mit Hilfe eines Automatisierungstools (Face Dataset Creation) einfach per Knopfdruck extrahiert werden. Die Bauchbinden werden ausgelesen und mit der im Bild dargestellten Person bzw. deren Gesicht assoziiert und ohne manuellen Aufwand in Datasets abgespeichert. Diese drei verschiedenen Möglichkeiten, Trainingsdaten anzulegen, führen zu einer hoher  Individualisierbarkeit der eigenen KI-Modelle und dies wiederum zu einer präzisen und qualitativen Analyse von visuellen Medien.

Ich möchte Resultate sehen!
Die Analyse mit eigens erstellten Modellen funktioniert ebenso wie das Auslösen des Trainings per Knopfdruck in der UI oder automatisiert per API im Backend. Als Ergebnis erhält der Nutzer alle im Modell erkannten sowie unerkannten Gesichter in Form von sogenannten Analyzed Data Units (ADUs), [4] ein standardisiertes Schema für maschinengenerierte Metadaten in Vidispine. Dieses erlaubt uns, entsprechend timecode-akkurat zu navigieren, Längen der Segmente zu erkennen und mit dem erkannten Zuverlässigkeitswert (Confidence) zu filtern. 

Ein besonderes Feature ist hierbei das sogenannte Indexing, also die automatische Erkennung von Gesichtern, die dem KI-Modell nicht bekannt sind. Hierbei wird jede vom Modell erkannte Entität bzw. (zunächst unbekannte) Person mit einem eindeutigen Code versehen (Fingerprint). Diese Form der Identifikation geschieht systemweit und jeder Nutzer hat die Möglichkeit, sollte er die betreffende Person identifizieren können, diese in einem einfachen Dialogfenster zu labeln („I know this person!“). Die zuvor noch unbekannte Person erhält nun einen Namen und wird im gesamten Datenbestand mit dem Label verknüpft und in allen zeitlichen Segmenten im Hintergrund aktualisiert. Analog können Labels auch umbenannt werden. Auf Knopfdruck und unmittelbar werden alle referenzierten und timecode-basierten Metadaten im System angepasst, so dass diese unmittelbar unter dem neuen Label zur Verfügung stehen und gefunden werden können.

Welchen Status kann das Training annehmen?
Der Lösungsansatz von Vidispine und DeepVA bietet die Möglichkeit, Trainingsdaten über einen Upload anzulegen und liefert zusätzlich Werkzeuge, um Datasets und Klassen zu optimieren und weiterzuentwickeln. Das sorgt letztendlich für Flexibilität und größten Handlungsspielraum. Alle Samples können verschiedene Status annehmen, welche transparent und intuitiv Rückmeldung darüber geben, auf welchem Wege Trainingsdaten erstellt worden sind oder aus welchem Grund diese noch nicht in ein KI-Modell überführt worden sind.  

TRAINED:
Hier handelt es sich um aktiv ausgewählte Beispielbilder (je höher die Anzahl und Varianz, desto genauer die spätere Analyse mit dem eigenen KI-Modell). Es würde jedoch schon ein Sample ausreichen.

AUTODETECTED:
In der Bild- und Videoanalyse werden alle Gesichter, die ein bestimmtes technisches Kriterium erfüllen (Schärfe, frontale Ansicht, Größe) mit einer eindeutigen ID versehen. Diese repräsentativen Gesichter werden automatisch eine neue Klasse erzeugen und in einem unbeschriebenen Dataset abgelegt. Diese können dann im Nachhinein gelabelt und in den Time-code Metadaten gesucht und gefunden werden. Bei vorhandenen Bauchbinden in Videos werden die Gesichter automatisiert mit einem Label versehen und in beschrifteten Datasets abgelegt.

UNTRAINED:
Samples, die noch nicht in ein KI-Modell überführt worden sind, weil diese zu festgelegten Zeitpunkten trainiert werden (z. B. einmal wöchentlich).

FAILED:
Hier werden Trainingsdaten gemeldet, die zu fehlerhaft für ein KI-Modell sind, z. B. weil sie zu unscharf sind, zu klein, zu dunkel etc. Der Nutzer erhält somit direktes Feedback darüber, welche Qualität seine Trainingsdaten aufweisen.

Zusammengefasst möchten wir mit unserer Lösung erreichen, dem Nutzer im MAM-System eine Bandbreite von KI-Tools zur Verfügung zu stellen, die sofort und ohne technisches Vorwissen angewendet werden können. Er kann eigene, individualisierte KI-Modelle aufbauen und hat dabei mehrere Optionen des Trainings zur Hand. Die Anwendung dieser Modelle und die damit verbundene Analyse von Bild- und Videodateien sorgt für eine detailliertere und qualitativ hochwertigere Verschlagwortung und damit zu einer verbesserten Recherchierbarkeit der Mediendaten. Über das Indexing werden Analysen und Rückwärtssuche ermöglicht. Insgesamt optimiert der Einsatz von KI im Bereich Computer Vision im MAM-System Arbeitsprozesse und kann Zeit und Kosten einsparen, insbesondere weil unser Ansatz eine Optimierung auf LoRes-Material bereits vorsieht. Mitarbeiter müssen ihre Zeit nicht mehr länger mit monotonen und repetitiven Aufgaben verbringen, sondern schaffen mit wenigen Klicks ein intelligentes  und sich stets verbesserndes System zum Speichern und Verwalten visueller Daten.

Wie sehen weitere Pläne aus?
Die Integration von KI-Training und allen dafür nötigen Werkzeugen in das bekannte MAM-System ist ein entscheidender Schritt zur Verbesserung der Customer Experience. DeepVA und das Arvato Systems Vidispine- Team zeigen mit ihrer Lösung, dass der Einsatz von KI im MAM-System intuitiv und unkompliziert sein und zusätzlich ohne Data Science Expertise auskommen kann. Das spiegelt auch die Firmenphilosophie der Macher von DeepVA wider. Sie haben es sich zur Aufgabe gemacht, jedem Unternehmen, das enorme Potential von KI zugänglich zu machen, um so Medienworkflows zu optimieren und Entscheidungsprozesse erleichtern zu können.  

Dennoch gibt es im Bereich KI noch viel zu tun. Immerhin: 95 Prozent der Hersteller planen, innerhalb der nächsten zwei Jahre KI einzuführen. [5] Den Nutzer dabei als Teil eines dynamischen Systems zu sehen und dieses Anhand seines Inputs weiterzuentwickeln und zu verbessern, wird eine entscheidende Rolle in den nächsten Jahren spielen. Die Kombination aus Visual Mining und dem Erstellen eigener KI-Modelle über verschiedene Trainingsmöglichkeiten geschieht zurzeit im Bereich der Erkennung von Personen bzw. Gesichtern (Face Recognition). In Zukunft wäre es aber genauso möglich, diese Technologie und die Art der Workflows in anderen visuellen Domänen, wie z. B. in der Erkennung von Gebäuden und architektonischen Strukturen, im Bereich Visual Concepts oder in der Brand & Logo Recognition umzusetzen.  

Mitte Mai dieses Jahres befindet sich die veranschaulichte Integration nach erfolgreichem PoC im Übergang zur Produktion, so dass dieser Service in naher Zukunft in VidiNet zur Verfügung steht. In diesem Zusammenhang freuen wir uns über jeden Pilotkunden, der mit uns gemeinsam diese innovative Lösung weiterentwickeln möchte.

ERROR: Content Element with uid "23466" and type "dce_dceuid2" has no rendering definition!