Immer mehr Unternehmen und Organisationen experimentieren mit Machine Learning (ML), und dessen praktischer Einsatz gewinnt an Boden. Laut einer aktuellen Umfrage von McKinsey haben bereits 39 Prozent aller Organisationen eine gewisse Form von ML in ihren Geschäftsprozessen implementiert.
Increasingly, organisations are experimenting with machine learning (ML) and greater adoption is taking hold. In fact, according to a McKinsey survey, 39 % of organisations have already implemented some form of ML in their business.
Während dieser frühe Einsatz von ML noch einen eher vorläufigen Charakter hat, machen die Vorteile wie verbesserte Effizienz, genauere Vorhersagen des Kundenverhaltens und eine ressourcenreiche Business Intelligence - neben weiteren Vorteilen - diese Technologie in vielen Geschäftsfeldern bereits heute zu einer attraktiven Option.
Professionelle AV-Anwender und Rundfunk-/TV-Sender sind keine Ausnahme von dieser Regel. ML stimuliert für die in diesen Feldern tätigen Organisationen und Unternehmen bereits eine Reihe von Geschäftsmodellen mit neuen Einnahmeströmen, ganz abgesehen von signifikanten Kostensenkungen. In den folgenden Abschnitten zeigen wir anhand einiger Beispiele, wie Pro-AV- und Broadcast-Unternehmen Machine Learning vorteilhaft einsetzen können.
Region-of-Interest (ROI) Kodierung
Die Streaming- und Speicherkosten für große Videodateien und UHD- (ultra-high definition) Content können sich leicht aufaddieren. Erfreulicherweise kann das Verfahren der regionalspezifischen Kodierung (region-of-interest encoding) diese Problematik entschärfen, indem sie die gesamte Bitrate des Content reduziert und anschließend die die beste Videoqualität (VC) denjenigen Bereichen zuordnet, auf die das Auge des Betrachters natürlicherweise fokussiert, also insbesondere auf Gesichter und Personen, während die Videoqualität in weniger wichtigen Bildpartien, etwa in den Hintergründen, bewusst herabgesetzt wird.
Die wahrgenommene Gesamtqualität ist bei natürlicher Betrachtung immer noch gut. Doch die Ausgangs-Bitrate des Kodierers lässt sich damit von beispielsweise 5 Mb/s auf 1,5 Mb/s reduzieren. Das entspricht einer Einsparung von 70 Prozent der Bitrate - was direkt in der Einsparung von 70 Prozent bei den Streaming-Kosten resultiert. Das heißt, bei einem typischen Bitstream für 10 000 Zuschauer könnte man damit mehr als 700 Dollar pro Stunde einsparen.
Dasselbe gilt für die Medienspeicherkosten. Unter der Annahme eines Cloud-basierten Drive mit hohem Durchsatz von 2 TB können die Kosten an die 1.000 Dollar pro Monat erreichen. Mit dem Einsatz von ROI zur Reduktion der Ausgangs-Bitrate des Kodierers um 70 Prozent kann ein kleinerer und billigerer Drive verwendet werden, oder es lässt sich ein viel umfangreicherer Video-Content auf demselben Drive abspeichern und anliefern.
ROI lässt sich außerdem dazu einsetzen, in Kontrollraum-Applikationen die Details der wichtigsten Bildbereiche aufrecht zu erhalten. Wenn ein relevantes Ereignis eintritt und auf einer großen Videowand überwacht wird, ist es wichtig, dass man die Details bei einer anschließenden Untersuchung genau unterscheiden kann, und dass diese sich auch für Trainingszwecke einsetzen lassen. So kann man aus Fehlern lernen und verbesserte Einsatzpläne entwickeln. Das bedeutet, hohe Videoqualität insbesondere in Bildbereichen mit Schriftüberlagerung (wie Uhren) zu bewahren, indem man statische Koordinaten für die ROI-Kodierung, sowie für Gesichter und Personen, und dynamische und ML-basierte Koordinaten für Gesichter und Personen verwendet.
Digital Signage mit Intelligenz
Zielgruppengenaue Werbung gilt als der Heilige Gral des Produkt-Marketing. Mit dem Einsatz von verschiedenen ML-Modellen lässt sich eine angepeilte Werbegruppe vor einer Digital Signage Präsentation analysieren. Damit wird es möglich, relevante und genauer gezielte Werbebotschaften zu senden, die auf einer spezifischen Metrik, wie Alter und Geschlecht, basieren. Das macht den Anbieter des Digital Signage-Service attraktiver für die Werbekunden, mit entsprechend höherer Kompensation für die bessere Ad-Präsentation. Diese Vorgehensweise generiert außerdem wertvolles Datenmaterial für den Werbetreibenden, etwa über das Zuschauer-Interesse. Das kann zu einer intensiveren Nutzung des Werbe-Service führen und ein monetisierbares Feedback für den repräsentierten Anbieter bedeuten. Der Betrachter wird dabei außerdem mit relevanten und besser personalisierten Ads konfrontiert. So können Werbebotschaften, die bestimmte Güter und Services propagieren, wesentlich interessanter zu betrachten sein - was das gesamte Einkaufserlebnis verbessert. Alternative ML-Modelle lassen sich in interaktiven Verkaufs-Kiosks einsetzen. Sie lösen dabei die Touch Screens durch eine Gestensteuerung ab, um zum nächsten Ad zu gelangen, oder um eine Bestellung zu platzieren. Die schlechte Hygiene von Touch Screens bei Fast-Food-Bestellungen ist verschiedentlich von den Medien aufgegriffen worden. Deshalb ist die Wahl von Gesten anstelle des physischen Kontakts für den Kunden eine wesentlich sauberere und gesündere Option.
Objekt Tracking und Windowing
Die Gesichtserkennung per ML kann auch in anderen Einsatzbereichen verwendet werden. Man stelle sich eine als Live Stream übertragene Panel-Diskussion über das Werk eines Künstlers an einer lokalen Kunsthochschule vor. Das ist eher ein Low-Budget-Event für eine Nischengruppe. Das heißt, die Produktionskosten sind sehr niedrig anzusetzen. Dabei wird typischerweise nur eine Kamera eingesetzt, die das komplette Panel mit gelegentlichen Zooms und Schwenks erfasst.
Durch den Einsatz von ML ist es dabei möglich, dass nur eine statische 4K-Kamera das ganze Panel erfasst, aber daneben noch gesonderte HD-Bildsignale der einzelnen Teilnehmer mit geringerer Auflösung im Fenster- oder Windowed-Format liefert und diese während der laufenden Gesprächsrunde automatisch verfolgt. Somit ist es mit einer einzigen 4K-Kamera möglich, vier verschiedene Ausgangsbilder zu erzeugen und zwischen diesen im Live Stream hin und her zu schalten - gewissermaßen zwischen einer Weitwinkel-Einstellung und drei individuellen Nahaufnahmen. Das erzeugt wesentlich mehr visuelles Interesse. Aber es erfordert keine Aufstellung von zusätzlichem Kamera-Equipment. Der Kameramann/frau kann zugleich die Videomischung übernehmen und entscheiden, welche Bilder in den Video-Stream übernommen werden.
Dieses Verfahren lässt sich mit unterschiedlichen ML Tracking-Modellen auch für professionelle Broadcast-Applikationen wie Sportübertragungen oder in kollaborativen Umgebungen einsetzen, wobei die Teilnehmer einer Videokonferenz automatisch ausgewählt und verfolgt werden können.
Spracherkennung
Betrachten wir einen anderen Einsatzbereich von ML: Es ist möglich, eine Spracherkennung unter Einsatz von NLP-Modellen (natural language processing) auszuführen. Dies ist bereits im Heimanwendungen mit Alexa, Google und anderen smarten Geräten der Fall, welche auf gesprochene Befehle reagieren und die entsprechenden Informationen oder Medien präsentieren, oder auch bestimmte häusliche Steuerfunktionen übernehmen. Mit eingebautem NLP in Geräte für professionelle Medien lässt sich deren Aufbau und Einrichtung wesentlich schneller und unkomplizierter durchführen, also ohne die Vernetzung mit einer Cloud und ohne den Abschluss eines entsprechenden Abonnements - mit der Ausführung der gleichen Aufgaben.
Zusätzlich zu den genannten Funktionen ist es auch möglich, mit Speech-to-Text-Algorithmen und Summationsmodellen die automatische Aufzeichnung und Zusammenfassung von Besprechungsnotizen und Protokollen auszuführen – mit dem Potenzial einer Echtzeit-Projektion von Subtiteln mit Übersetzung in die gewünschten regionalen Sprachen oder Dialekte. Auch das ließe sich in Videoconferencing-Applikationen einsetzen, und ebenso in der mehr traditionellen Untertitelung von Rundfunk- und Kinopräsentationen.
Die Anwender können alle diese ML-Fähigkeiten für die AI-Verarbeitung im Edge-Bereich auf Xilinx-Bausteinen, einschließlich der hoch integrierten Zynq UltraScale+ MPSoC-Plattform mit großem Gewinn einsetzen. Die Verarbeitung unmittelbar an der Edge, also ohne Netzwerkverbindung, hat beträchtliche Vorteile, vor allem in Bezug auf die Performance mit niedriger Latenz. Das würde auch den mannigfachen Bedenken hinsichtlich des Datenschutzes und der Speicherung von Identifikationsdaten in der Cloud entgegenkommen. Die Einbeziehung dieser ML-Fähigkeiten in die adaptierbaren Plattformen von Xilinx bedeutet, dass Unternehmen und Organisationen ihre Analytik monetarisieren, die Workflow-Effizienz verbessern und die Nutzbarkeit verbessern können. Im Endeffekt erlauben diese integrierten ML-Funktionen den Unternehmen die die Steigerung ihrer Innovationskapazität, die Differenzierung ihrer Angebote und eine kürzere Time-to-Market.
Einige Rechenbeispiele
- Reduktion der Bitrate und der Kosten für Live-Streaming:
- Je nach Konzept liegen die meisten CDN-Kosten zwischen 2 Cent und 20 Cent pro GB an Streaming, wenn sie auf Bandbreiten-Gebühren basieren.
- Annahme: 5 Mb/s für 1 h Video = (5 Mb/s x 360 s)/8 = 225 MB = 0,225 GB.
- Annahme: 5 Cent für einen Stream von 1 GB mit einer Zuschauerzahl von 10 000 = 10 000 Viewer x 0,225 GB x 0,5 Dollar pro GB = 1 125 Dollar pro h.
- Reduktion auf 1,5 Mb/s mit ROI: Gesamtkosten = 10 000 Viewer x 0,0675 GB x 0,5 Dollar pro GB = 337,50 Dollar pro h.
- Das bedeutet eine Einsparung von 787,50 Dollar pro Stunde Video Stream.
- Einsparung von 70 % der Bitrate mit ROI = 70 % Kosteneinsparung.
- Reduktion der Dateigröße für die Speicherung
- Annahme: 2 000 GB an Video sind zu speichern.
- Kosten der Speicherung = ~33,33 Dollar pro Tag (AWS High-Throughput Drive) = ~1 000 Dollar pro Monat für einen 2-TB Drive.
- Mit ROI zur Reduktion von 5 Mb/s auf 1,5 Mb/s =70 % Einsparung bei der Speicherung.
- Reduktion des Speicherplatzes mit kleinerem und billigerem Drive.
- Oder Speicherung von mehr Videos auf dem 2-TB Drive.
QUANTUM ÜBERNIMMT ACTIVESCALE-SPARTE VON WESTERN DIGITAL
Quantum Corporation hat das Objektspeichergeschäft ActiveScale von Western Digital Technologies übernommen. Mit der Übernahme will Quantum seine „führende Rolle bei der Speicherung und Verwaltung von Video und anderen unstrukturierten Daten“ unter Verwendung eines softwaredefinierten Ansatzes weiter ausbauen, teilt das Unternehmen mit. Die ActiveScale-Produktlinie erweitert das Portfolio von Quantum um Objektspeichersoftware und Erasure-Code-Technologie. Dadurch kann das Unternehmen im Objektspeichermarkt expandieren. Die Objektspeicherung hat sich als eine Lösung im Umgang mit dem exponentiellen Wachstum von Video und anderen Formen unstrukturierter Daten herausgestellt. Diese Inhalte müssen mit hoher Geschwindigkeit erfasst und verarbeitet werden (normalerweise mit einem Dateisystem wie StorNext) und werden dann für mehrere Jahre oder Jahrzehnte aufbewahrt. Unstrukturierte Daten sind z. B. Videos oder Bilddateien, die für Unterhaltungs-, Überwachungs-, Schulungs-, Marketing- oder Sicherheitszwecke aufgenommen wurden. Seit mehr als fünf Jahren bietet Quantum mit der ActiveScale-Produktlinie eine erfolgreiche Speicherlösung für diese Art von Dateien.
Hintergrund Quantum
Quantums Technologien und Services sollen Kunden bei der Erfassung, Erstellung und gemeinsamen Nutzung von digitalen Inhalten helfen - sowie deren Vorhaltung und Sicherung für Jahrzehnte bei minimalen Kosten. Quantums Plattformen bieten Performance für hochauflösende Videos, Bilder und industrielles IoT und umfassen Lösungen für jede Phase im Datenlebenszyklus – vom performanten Dateneingang über die Zusammenarbeit und Analyse in Echtzeit bis zur Archivierung.