Symbiose zwischen Medien und Maschinen

FKT Magazin 7/2018

Die heutige Medienbranche lebt von Daten. Texte,Fotos, Videos, Grafiken, Audiodateien und Social Media Feeds in tausenden verschiedenen Formaten und aus unzähligen unterschiedlichen Quellen werden bearbeitet, veröffentlicht, weitergegeben. Aufgrund der technologischen Entwicklung in der Medien- und IT-Technik und den digitalen Speichermöglichkeiten fallen heute mehr Daten an als jemals zuvor. So hatte laut dem PortalStatista etwa der Fotodienstleister CeWe 2005 noch knapp 830 Millionen Digitalfotos entwickelt – 12 Jahre später waren es bereits über 2,1Milliarden.

Statista informiert zudem über eine Studie von Bitkom aus dem Jahr 2017. Danach geht Bitkom von einer Fast-Verdopplung der weltweitgemachten Fotos zwischen 2013 und 2017 aus: von 660 Billionen auf 1,2 Billiarden. Es fallen also riesige Datenmengen an – auch in der Medienbranche. Die Daten werden zwar gesammelt und gespeichert, allerdings ist wohl niemand – kein Redakteur oder Media Manager – in der Lage, diese Datenflut manuell vernünftig auszuwerten und nutzbar zu machen: Big Data lassen sich nicht mit herkömmlichen Datenbanken und Management-Tools verarbeiten. Aber mit KI – künstlicher Intelligenz – wird es machbar.

Lebenslanges Lernen – selbst für den Computer

Künstliche Intelligenz (KI) ist in der Lage, gigantische Mengen an Datensätzen anzureichern, zu taggen und Muster und Zusammenhänge zu erkennen. Im Medienumfeld spricht man von Analytics gepaart mit Machine Learning. Der Clou dabei: Mit Hilfe maschineller Lernverfahren verbessert das System sein eigenes Leistungsvermögen, die Ergebnisse werden immer treffsicherer.

Wenn die Royals Hochzeit halten –ein Beispiel für KI im TV-Bereich

Es war wohl das mediale Großereignis im Mai 2018: die Hochzeit im britischen Königshaus.
Es ist zu vermuten,dass die Pressevertreter vor Ort unzählige Stunden an Videomaterial aufgenommen und an ihre Redaktionen geliefert haben. Die Berichterstattung fand gleichzeitig auf diversen TV- und Hörfunk-Kanälen und im Internet statt.

Ein Vorteil für denjenigen, der seinem interessierten Publikum eine Neuigkeit mitteilen konnte, die die anderen Medienvertreter nicht hatten. Viele Fans waren neugierig, welche Promis mit von der Partie waren. Die Reporter konnten natürlich auf die offiziellen Verlautbarungen aus dem Palast zurückgreifen. Ob dieser ab über jeden Star und jeden Promi Bescheid gab, der sich auf der Party tummelte?

Unwahrscheinlich. Zusätzliche Informationen erhielt eine Redaktion jedoch, die ihre Film-Kilometer mit einer KI-Software zur Gesichtserkennung analysieren ließ. Die VIPs, die im Bild gut sichtbar auftauchten und deren Konterfeis der Maschine bekannt waren, wurden so identifiziert.

Mehr noch: Die Maschine nahm auch die neuen Bilder in ihr „Gedächtnis“ auf – so wird sie diesen Promi zukünftig noch besser und schneller erkennen.

Metadaten nutzerfreundlich visualisieren

Die Analyse ergibt allerdings nur unstrukturierte Metadaten. Als Beispiel: Man lässt Video-Dateien nach einem bestimmten Objekt, etwa nach einem Logo, durchsuchen.

Die Maschine findet nun heraus, in welchen Sequenzen dieses Logo jeweils zu sehen ist, und stellt die Metadaten als Liste mit den entsprechenden Timecodes zur Verfügung. Für den Nutzer sind diese Daten zunächst nur schwer zu durchdringen. Darum kommt nun ein Media-Asset-Management-System (MAM-System) ins Spiel, das die Daten automatisiert via Connector, einer definierten REST-Schnittstelle, übernimmt.

Das MAM-System stellt nun die Daten in einer Form dar, die der Nutzer schnell und einfach erfassen kann. Für das oben genannte Beispiel etwa werden die Daten zur Logoerkennung auf einer Timeline des Videos dargestellt. Auch alle anderen dazugehörigen Daten werden direkt am Asset in strukturierter Form angezeigt.

Beispielsweise werden mehrere KI-generierte Shotlisten am selben Asset sichtbar. Unterscheidung auf einen Blick Mancher Nutzer möchte sich eventuell noch einmal rückversichern, indem er die Angaben im System manuell hinsichtlich ihrer Richtigkeit gegenprüft, gegebenenfalls anpasst und das System dadurch wiederum schult.

Da ist ein transparentes MAM-System von Vorteil, wie etwa das VPMS von Arvato Systems, das anschaulich darstellt, welche Daten KI-generiert sind und welche händisch eingepflegt wurden.

Wie die Maschine die Schulbank drückt, wenn der Lehrplan feststeht

Die maschinellen Lernverfahren lassen sich in Supervised Learning, Un-supervised Learning und Reinforcement Learning unterteilen. Beim Supervised Learning nutzt die Maschine ihre Fähigkeit, Eigenschaften wiederzuerkennen und so eine Klassifizierung von Daten vorzunehmen.

Es wird mit Beispieldaten ein Modell aufgebaut. Die Maschine lernt, dass verschiedene typische Eigenschaften der Daten ihre Zugehörigkeit zu einer bestimmten Gruppe definieren. Kommen nun neue Datensätze ins System, erkennt der Rechner deren Eigenschaften und ordnet die Daten den Gruppen zu.

In der Praxis lassen sich so beispielweise Texte automatisch klassifizieren. Die Maschine erkennt bestimmte Buzzwörter oder Wortgruppen und ordnet den Text einem Genre zu. Besonders interessant wird es, wenn sich die Maschine dabei nicht auf ein Textformat beschränkt, sondern sowohl Dokumente als auch Ton- und Videoaufnahmen analysieren und somit clustern kann.

Training ohne Stundenplan

Beim Un-supervised Learning hingegen soll KI die noch unbekannten Zusammenhänge zwischen den Daten aufdecken, sich wiederholende Muster finden und selbst eine Struktur für die Daten – sogenannte Cluster – anlegen.

Dabei werden sich sehr wahrscheinlich die Anzahl und die Art der Cluster ändern, wenn neue Daten einfließen. Typische Anwendungsfälle für Un-supervised Learning im Bereich der Medien sind die Spracherkennung und die Speech-to-Text-Transkription.

Auch hier ein mögliches Szenario aus der Praxis: Als erstes muss die Maschine selber verstehen, um welche Sprache es sich handelt. Das wird sie umso leichter bewerkstelligen, je besser und umfangreicher das Testmaterial ist, mit dem sie zuvor gefüttert wurde.

Hat sie etwa erkannt, dass man im vorliegenden Video Französisch spricht, kommt die eigentliche Schwierigkeit: In Paris klingt Französisch etwas anders als in der Provence, der Dialekt von nordafrikanischen Einwanderern unterscheidet sich von dem in Belgien. Mit Hilfe geeigneter Algorithmen lernt die Maschine aber, die unterschiedlichen Aussprachen demselben geschriebenen Wort zuzuordnen.

Lernen nach dem Belohnungsprinzip

Beim Reinforcement Learning geht es um einen hochkomplexen Prozess, mit dem die Künstliche Intelligenz in einer bestimmten Umgebung definierte Aktionen durchführen soll, sobald ein genau festgelegter Zustand eintritt.

Die Umgebung reagiert auf diese Aktion mit einer positiven Bewertung – einer „Belohnung“ oder beurteilt die Aktion negativ.

KI merkt sich die Bewertung und weiß, sobald der gleiche Zustand wieder eintritt, welche Handlung die richtige ist. Ein Beispiel aus der Praxis: Für den 24-Stunden-7-Tage-Betrieb der Onlinemedien muss sichergestellt sein, dass die Technik reibungslos funktioniert.

Serverausfälle, unakzeptable Tonqualitäten oder Sicherheitspannen kann sich die Branche nicht leisten. KI kann hier sicherstellen, dass das Equipment jederzeit funktionsfähig ist, indem sie die Ausfallwahrscheinlichkeit der Komponenten berechnet und rechtzeitig gegensteuert, bevor der Notfall eintritt.

Ähnliche Beiträge