07.04.2021 | Ausgabe 4/2021

„Metadaten-Landschaft ist heute meilenweit von Wildem Westen entfernt“

Quelle: Shutterstock / Wichy

In der Medienproduktion existiert bei den Metadaten zwar auch weiterhin eine große „Variabilität“. Die Standardisierungsarbeiten der vergangenen Jahre haben aber dazu geführt, dass die „Metadaten-Landschaft heute meilenweit vom ‚Wilden Westen‘ von vor 15 bis 20 Jahren entfernt ist“, sagt Karsten Schragmann, Leiter Produkt Management im Vidispine-Team bei Arvato Systems. FKT hatte Gelegenheit, mit ihm über Metadaten-Typen und -Modelle sowie über den Einsatz KI-basierter Dienste zur automatisierten Metadaten-Erschließung zu sprechen.  

FKT: Herr Schragmann, warum sind Metadaten in der Medienproduktion und der Mediendistribution heute wichtiger denn je?

Karsten Schragmann: Metadaten bestimmen den „Return of Invest“ (ROI) für Medieninhalte. Erstens: Je mehr Wissen wir über ein Medien-Asset haben, desto mehr Wert können wir daraus schöpfen. Ein ganz einfaches Beispiel wären die grundlegenden beschreibenden Metadaten wie Titel und Beschreibung – diese erlauben es uns, Inhalte im Archiv zu finden und (wieder) zu verwenden.

Zweitens ermöglichen uns strukturierte Metadaten, Prozesse zu automatisieren. Ein ganz einfaches Beispiel wären Angaben zu Codec und Auflösung einer Mediendatei – basierend auf diesen Metadaten können wir in automatisierten Workflows Entscheidungen darüber treffen, wie dieses Asset zu behandeln ist. Ein Beispiel: Wenn die Metadaten „Highlights“ in einem Asset identifizieren, können wir die Erstellung einer „Edit Decision List“ (EDL, Liste zur Abarbeitung von Schnitten), die an den Editor gesendet wird, automatisieren. Zudem kann sogar der gesamte Prozess der Erstellung von Highlights automatisiert werden. Mit dieser Kombination ermöglichen uns Metadaten also, die Kosten für die Produktion und den Vertrieb von Assets zu senken und gleichzeitig den erzielbaren Wert dieser Assets zu erhöhen. 

Karsten Schragmann, Leiter Produkt Management bei Vidispine – An Arvato Systems Brand // Quelle: Arvato Systems

FKT: Sie diagnostizieren eine Metadaten-Evolution. Woran machen Sie das fest?

Karsten Schragmann: Moderne Fernsehproduktionsprozesse haben nicht nur Anforderungen an Metadatenmodelle, vielmehr steigt durch die zunehmend datengetriebene Medienproduktion auch der Bedarf an inhaltsbasierter, automatisierter Metadatengenerierung. Es gibt drei Bereiche, in denen sich Metadaten deutlich weiterentwickelt haben.  Erstens hinsichtlich Standardisierung: Obwohl noch immer noch eine große Variabilität besteht, ist die Metadaten- Landschaft heute meilenweit vom „Wilden Westen“ von vor 15 bis 20 Jahren entfernt. Ein Großteil der Standardisierung ist indirekt durch Entwicklungen und Standardisierungsbestrebungen in anderen Medien-Bereichen entstanden. Zum Beispiel hat die Konsolidierung der Dateiformate zu einer Standard-Taxonomie für strukturelle Metadaten geführt – in erster Linie MXF und weiter eingeschränkt auf die Anwendungsspezifikationen, die durch die DPP/AMWA oder die ARD-ZDF MXF-Profile definiert sind. Da es notwendig ist, bestimmte Metadaten wie zum Beispiel Untertitel zusammen mit Video und Audio zu übertragen, gab es weitere Bemühungen, diese Daten zu standardisieren. Um die Qualität beim Austausch von Dateien zu sichern und Tools zur automatischen Medienanalyse zu nutzen, war ein weiterer bedeutender Bereich die Qualitätskontrolle - realisiert wiederum durch Organisationen wie der DPP, dem IRT und dem EBU-QC-Projekt.
Es ist keine 15 Jahre her, dass das britische Start-up-Unternehmen Vqual mit Cerify, einem dateibasierten Video- und Audioanalysator, als erstes den Broadcast-Markt eroberte. Die größte Stärke, aber auch Schwäche von Cerify und ähnlichen Tools war damals, dass es Daten zu jedem Frame, Makroblock und Pixel in einer Datei liefern konnte (und dies bei falscher Konfiguration oft auch tat). Die Verwendung oder sogar die sinnvolle Nutzung dieser Datenfülle stellte oft ein großes Problem dar, das die automatisierte Qualitätskontrolle lösen konnte. Mit der Weiterentwicklung der Medienanalyse- Tools wurden diese Daten immer nützlicher. Künstliche Intelligenz und Maschinelles Lernen haben weitere Innovationen und Daten aus der Video- und Audioanalyse hervorgebracht, was die Verwaltung und vor allem der Nutzung dieser Daten vor neue Herausforderungen stellt.
Schließlich liegt es an der Art und Weise, wie Metadaten verwendet werden. Heute werden bei automatisierten Workflows Laufzeitentscheidungen getroffen, die auf vorhandenen oder während der Workflows generierten oder aktualisierten Metadaten basieren. Diese Entscheidungen können ganz einfach sein, wie im obigen Beispiel, wenn die Metadaten zeigen, dass die Medien nicht in einem „Hausformat“ vorliegen, um dynamisch einen Transkodierungsschritt in einen Ingest-Workflow einzufügen – bis hin zu ausgefeilteren, z. B. zur „Fast Track“-Verarbeitung, wenn das Ergebnis einer Kontextanalyse einer Transkription (vielleicht aus einer separaten Sprache-zu-Text-Analyse) mit trendigen Keywords übereinstimmt.

FKT: Welche Metadaten-Typen und -Modelle sind zu unterscheiden?

Karsten Schragmann: Es gibt hauptsächlich drei Arten von Metadaten für Videoinhalte, die man kennen muss, um Assets leichter auffindbar zu machen: deskriptive Video-Metadaten, strukturelle Video-Metadaten und administrative Video-Metadaten.

Deskriptive Video-Content-Metadaten umfassen alle Informationen, die die Assets beschreiben und zur späteren Identifizierung und Erkennung verwendet werden. Beispiele für deskriptive Video-Metadaten sind eindeutige Identifikatoren (z. B. EIDR, ein Konzept ähnlich der ISBN, jedoch für digitale Objekte), physikalische technische Attribute (z. B. Dateigrößen, Farbcodes oder Dateitypen) und bibliografische/ergänzende Attribute (z. B. Beschreibungen, Titel und relevante Schlüsselwörter). Deskriptive Video-Metadaten sind der bekannteste Typ von Metadaten und werden oft als der robusteste Typ beschrieben, weil es viele Möglichkeiten gibt, ein Asset zu beschreiben.

Strukturelle Video-Metadaten geben an, wie ein bestimmtes Asset organisiert ist – so wie etwa die Seiten eines Buches Kapiteln zugeordnet sind. Strukturelle Videoinhalts-Metadaten geben auch an, ob das spezifische Asset Teil einer einzelnen Sammlung oder mehrerer Sammlungen ist, was die Navigation und Präsentation der Informationen in einer elektronischen Quelle erleichtert. Beispiele für strukturelle Video-Metadaten sind Abschnitte, Video-Kapitel, Indizes und Inhaltsverzeichnisse. Strukturelle Video-Metadaten sind - abgesehen von der grundlegenden Organisation – der Schlüssel zur Dokumentation der Beziehung zwischen zwei Assets. Administrative Video-Metadaten betreffen die technische Quelle einer digitalen Ressource und wie diese verwaltet werden kann. Es sind Metadaten, die sich auf Rechte und geistiges Eigentum beziehen, indem sie Daten und Informationen über den Eigentümer bereitstellen sowie darüber, wo und wie es verwendet werden darf. Die NISO (National Information Standards Organization) unterteilt ad inistrative Metadaten in drei Unterkategorien: technische Metadaten (notwendige Informationen zum Dekodieren und Rendern von Dateien), Preservation Metadata (notwendige Informationen für die langfristige Verwaltung und Archivierung von digitalen Assets) sowie Rechte-Metadaten (Informationen zu geistigem Eigentum und Nutzungsrechten). Ein Beispiel für administrative Video-Metadaten wäre die Creative-Commons- Lizenz.

FKT: In der Praxis kommt es mitunter zum regelrechten Metadaten-Chaos, wenn etwa ein Videobeitrag in unterschiedlichen Systemen und Datenbanken nicht einheitlich annotiert ist. Inwiefern ist Standardisierung hier ein Ausweg?

Karsten Schragmann: Ich habe bereits ein paar Standardisierungsinitiativen erwähnt, die die Situation dramatisch verbessert haben. Die AMWA/DPP-Anwendungsspezifikationen sind hier ein großartiges Beispiel, wo Schema und Taxonomie der Metadaten für die dateibasierte Bereitstellung von Inhalten spezifiziert werden. Ich habe auch die Herausforderungen angesprochen, die bei der automatisierten Qualitätskontrolle auftraten, als die ersten Lösungen auf den Markt kamen. Initiativen wie das EBU-QC-Projekt waren hier sehr hilfreich, obwohl man auch sagen kann, dass es eine „Defacto-Standardisierung“ gab, die durch den Druck des Marktes und die Konsolidierung der Anbieter zustande kam. Mit der explosionsartigen Zunahme von KI-Diensten und einer breiten Palette von Anbietern, die in diesen Bereich einsteigen, stehen wir heute vor einem ähnlichen, aber viel weniger eingeschränkten Szenario. Eine gemeinsame ETC-SMPTE-Taskforce wurde in der zweiten Hälfte des Jahres 2020 eingerichtet, um Bereiche zu untersuchen, in denen eine Zusammenarbeit und Standardisierung in Bezug auf KI und Medien von Vorteil sein könnte. Zweifellos werden Metadaten, die aus diesen Prozessen entstehen, einer der Bereiche sein, die von der Taskforce identifiziert werden, wenn sie ihren technischen Bericht erstellt. Zu diesem Zeitpunkt werden wir jedoch noch weit von Standards oder Empfehlungen entfernt sein, sodass es möglich, vielleicht sogar wahrscheinlich ist, dass die Konsolidierung der Anbieter und der Druck des Marktes erneut die Hauptantriebskräfte für einen „Defacto“-Standard sein werden. In der Zwischenzeit werden Systeme, die einen einzigen Einstiegspunkt und einheitliche Ergebnisse aus mehreren KI-Diensten bieten, eine Brücke bilden, die es Anwendern ermöglicht, Best-of-Breed-Lösungen zu erstellen.  

FKT: Um der enormen Video- und Audiodaten Herr zu werden, bieten sich automatisierte, KI-basierte Verfahren zur Generierung von Metadaten an. Welche Optionen eröffnen sich damit?

Karsten Schragmann: KI-basierte Metadaten-Generierung ermöglicht es der Maschine, Informationen innerhalb des Video- und Audio-Frames selbst zu finden, ganz ähnlich wie wir Menschen denselben Inhalt interpretieren können. Dies eröffnet natürlich wichtige neue Möglichkeiten, je nachdem, welche Art von Workflow Sie verwalten. Ein Sender kann KI-basierte Metadatengenerierung nutzen, um automatisch (neue) Arten von Informationen in einer riesigen Menge von Medieninhalten zu finden, die zuvor nicht manuell verarbeitet werden konnten – und diese Erkenntnisse dann nutzen oder dem Zuschauer als Programm, Highlights, vorgeschlagene Sendungen oder sogar als automatisch generierte Trailer präsentieren. KI-basierte Dienste tragen diese neuen Informationen als Metadaten und geben ihrem MAM-System neue und viel granularere Methoden zur Verwaltung Ihrer Mediendateien. Dies ist sehr wichtig, um die Leistung und die Möglichkeiten Ihrer sich entwickelnden Medienlieferkette zu optimieren.
Der Umsatz und die Frage, wie wir den Umsatz verbessern können, sind natürlich ein Treiber für die Weiterentwicklung und Anpassung der kognitiven Dienste, wie für die meisten anderen Technologien auch. Und wenn man sich erst einmal mit dem Gedanken vertraut gemacht hat, die gängige Sichtweise auf das, was Maschinen können, zu hinterfragen – dann wird das Thema Umsatz durch Technologie noch interessanter.

FKT: Welche Herausforderungen gibt es bei der KI-basierten Erstellung von Metadaten zu bewältigen?

Karsten Schragmann: Eine der größten Herausforderungen, die mit KI-abgeleiteten Metadaten eingeführt werden, dreht sich um die „Qualität“ - oder genauer gesagt um das Vertrauensniveau. Da KI-basierte Analysatoren in Medien- Workflows alltäglich werden, haben wir uns von einer Position, in der wir eine relativ kleine Menge an Metadaten hatten, denen wir vertrauten (mindestens so sehr wie den Menschen, die sie generierten), zu einer Situation entwickelt, in der wir riesige Mengen an Metadaten haben - aber mit unterschiedlichem Grad an Vertrauen in die Genauigkeit dieser Daten. Vertrauen und Vertrauensschwellen spielen nun eine wichtige Rolle in unseren Arbeitsabläufen – möglicherweise mit unterschiedlichen Schwellenwerten in verschiedenen Arbeitsabläufen oder verschiedenen Teilen der Organisation. Die Verwaltung dieser Vertrauensschwellen ist der Schlüssel für die Nützlichkeit der Metadaten. Eine zweite Herausforderung bei der KI-basierten Erstellung von Metadaten ist die schiere Menge an Metadaten. Als wir vor  einigen Jahren unsere eigenen Pläne für die Integration von kognitiven Diensten schmiedeten, erklärte unser Kollege Ralf Jansen, dass wir „jedes Detail über jedes Bild wissen“ wollten. Es ist nur dann von Wert, ein Detail zu verstehen und/oder zu dokumentieren, wenn es erstens einen Mehrwert für den Inhalt darstellt oder Kosten im Produktionsprozess spart und wir zweitens tatsächlich auf diese Daten zugreifen können. Es muss ein einheitlicher Service-Ansatz innerhalb der MAM-Architektur vorhanden sein. Es gibt eine wachsende Zahl von Anbietern kognitiver Dienste, und ein MAM-System muss nicht nur Platz für zusätzliche Schichten zeitlicher Metadaten schaffen, sondern auch kognitive Metadaten von vielen verschiedenen Anbietern in eine gemeinsame Struktur einpassen können. Dies ist wichtig, da es unterschiedlich trainierte Modelle für verschiedene Zwecke gibt und man natürlich kognitive Dienste von verschiedenen Anbietern nutzen und kombinieren möchte, um die Fähigkeiten und die Leistung der Medienlieferkette zu verbessern.
In VidiNet Cognitive Services haben wir eine Standardstruktur für die kognitiven Metadaten verschiedener Anbieter definiert. Dadurch müssen sich Kunden nicht darum kümmern, wie sie die unterschiedlichen Metadatenergebnisse, die von verschiedenen Anbietern zurückkommen, modellieren und integrieren können.  

FKT: Ein Ausblick: Wie stehen künftig Güte der Metadaten und langfristiger Nutzen in Beziehung?

Karsten Schragmann: Kunden werden in Zukunft die Bedeutung einer dienstunabhängigen Basis-Metadatenextraktion erkennen, die verschiedene Arten von kognitiven Erkennungsmodellen bietet und gleichzeitig in der Lage ist, all diese Metadaten in einem einzigen MAM-System und einer Medienlieferkette zu vereinheitlichen, um Business Intelligence zu fördern. Speziell im Bereich der Computer Vision sollte es eine einfache Möglichkeit geben, mit wenigen Beispielen (Trainingsdaten) eigene aktuelle und regionale Konzepte zu trainieren, die direkt in das MAM integriert werden. Und sobald alle notwendigen zeitgenauen Informationen zur Verfügung stehen, können wir darauf Mehrwertdienste aufbauen, die von Content Intelligence wie Suche und Monetarisierung von Inhalten, Content-Empfehlungen aufgrund von Genealogie-Mustern, (Echtzeit-)Assistenzsystemen aufgrund von Rechtebesitz oder Empfehlungen beim Schneiden aufgrund von Zielprogrammplätzen auf Basis von Bewertungsvorhersagen, Konformität bis hin zu automatischen Highlight-Cuts von Inhalten, domänen-spezifischen Archiv-Tagging-Paketen, Ähnlichkeitssuche in Bezug auf eigene Lizenzen und vieles mehr reichen. Kunden werden anfangen, ihre eigenen Anwendungen und Anwendungsfälle für kognitive Dienste zu finden. Und es gibt eine wachsende Zahl von Anbietern kognitiver Dienste mit einzigartigen oder sich überschneidenden Funktionen.

FKT: Herr Schragmann, vielen Dank für das Gespräch.


 

Newsletter
Ja, ich möchte den Newsletter von FKT abonnieren