Mit einem neuen, netzbasierten KI-Service generiert der Netzbetreiber Media Broadcast Metadaten der über ihr Netzwerk übertragenen TV- und Radioprogramme und fügt diese – gewissermaßen in Echtzeit – den jeweiligen Inhalten hinzu. „Speech-To-Text ist hier nur der erste Schritt, auf unserer Roadmap stehen daneben natürlich noch weitere KI-Services wie zum Beispiel Personen- oder Objekterkennung, Texterkennung im Bewegtbild und mehr, die wir nach und nach ergänzen können“, sagt Daniel Wolbers, Leiter Produktmanagement Netze bei Media Broadcast.
FKT: Über einen netzbasierten KI-Service will Media Broadcast künftig TV- und Radioprogramme mit automatisch generierten Metadaten anreichern. Welches Ziel verfolgen Sie damit?
Daniel Wolbers: Wir haben festgestellt, dass die Bereitstellung von reinen Übertragungsleistungen für viele unserer Kunden nicht mehr ausreicht, sondern weitere Dienstleistungen gewünscht werden. Die Entscheidung, als Media Broadcast eine KI-Lösung anzubieten, basiert zum einen auf dem Bedarf unserer Kunden sowie unserer technischen und organisatorischen Möglichkeiten. KI hat sich angeboten, da im Netz der Media Broadcast bereits ein Großteil der Signale unserer Kunden vorhanden sind und so der komplexeste Teil bei der Einbindung von KI zur automatischen Metadaten-Generierung, nämlich die Anpassung von Produktionsworkflows durch uns statt unsere Kunden vorgenommen wird. Weiterhin können wir durch den Einsatz unserer Kapazitäten im eigenen Rechenzentrum deutlich höhere Rechenleistungen zur Verfügung stellen als dies bei unseren Kunden in Eigenrealisierung möglich wäre.
FKT: Der Speech-to-Text-Algorithmus arbeitet nahezu in Echtzeit. Welche Herausforderungen sind dabei zu meistern?
Daniel Wolbers: Der Großteil aller bereits vorhandenen Speech-to-Text-Lösungen arbeitet zwar bei der Erkennung und Transkribierung von Sprache in Audio oder Video bereits heute in Echtzeit oder auch schneller als Echtzeit, allerdings wird hier das Eingangssignal immer als komplette Datei des zu analysierenden Beitrags erwartet. Media Broadcast geht hier einen Schritt weiter und bietet die automatische Analyse sofort nach der Ausstrahlung eines Beitrags an. Die Herausforderung hierbei besteht darin, einen Video-Strom in einzelne Pakete zu schneiden, welche dann von der KI schneller als Echtzeit analysiert werden. Hierbei ist es wichtig, die einzelnen Beiträge innerhalb eines Live-Programmstroms zu identifizieren, an der richtigen Stelle zu trennen und mit zusätzlichen Meta-Daten-Informationen wie Sendungsname, Datum, etc. an die KI zu übergeben. Media Broadcast hat hierfür eine Lösung entwickelt, die auf vorhandene Informationen zum vorliegenden Programmstrom zugreift.
FKT: Mit dem neuen Service setzen Sie auf das Audio-Mining-System des Fraunhofer IAIS und auf die Portal-Lösung von LOGIC media solutions. Damit soll eine individualisierte Gestaltung zur Einbettung in vorhandene Workflows möglich werden. Wie gelingt das?
Daniel Wolbers: Unsere Wahl ist auf das System AudioMiner des Fraunhofer IAIS gefallen, da dies die ausgereifteste Speech-to-Text-Lösung für deutsche Sprache am Markt ist. Viele weitere verfügbare Lösungen haben zwar sehr hohe Erkennungsraten bei Englisch, bei Deutsch stoßen diese allerdings schnell an ihre Grenzen. Das Audio-Miner-System selbst bedarf der tiefen Integration in bestehende Workflows, um zu Beiträgen ein Transkript als Meta-Daten zu generieren. Der Bedarf zur Integration in Kundenworkflows zur Zuführung von Material zum AudioMiner wird durch unsere Lösung nicht mehr notwendig, da wir das entsprechende Material durch die vorhandenen Kundensignale in unserem Netz nutzen. Für unsere Kunden ist es somit nur noch notwendig, den Workflow für die Anreicherung von zum Beispiel Archiven oder CMS-Systemen mit den fertigen Meta-Daten anzupassen. An dieser Stelle kommt die Portal-Lösung von LOGIC media solutions zum Einsatz, die eine passgenaue Bedienung von beim Kunden vorhandenen Schnittstellen zur automatischen Anlieferung und Einbettung der Meta-Daten in bestehende Systeme ermöglicht. Der Anpassungsaufwand bei unseren Kunden wird dadurch auf ein Minimum reduziert.
FKT: Die Übertragung erfolgt ausschließlich im nicht-öffentlichen All-IP-Backbone von Media Broadcast. Warum ist das wichtig?
Daniel Wolbers: Durch die Nutzung unseres All-IP-Backbone ermöglichen wir eine Schnelligkeit und Sicherheit bei der Generierung von Meta-Daten mittels KI, die anders so nicht gegeben ist. Zum einen haben wir eine große Zahl von Kundensignalen bereits im Backbone anliegen, so dass die Nutzung dieser für unsere KI-Anwendung quasi per „Mausklick“ konfiguriert werden kann. Weiterhin ist so sichergestellt, dass kein Dritter Zugriff zum einen auf die Meta-Daten, als auch auf die KI erhält. (Meta-)Daten sind in der heutigen Zeit für unsere Kunden genauso wertvoll wie deren eigentliches Audio- und Video-Produkt. Durch Nutzung unseres nicht-öffentlichen Backbones und unseres eigenen Rechenzentrums ist aufgrund unseres hohen Sicherheitsstandards gewährleistet, dass kein Dritter Einfluss auf die Generierung und Übermittlung der Meta-Daten hat und so keine Daten Löschen, Hinzufügen oder Verändern kann.
FKT: Welche konkreten Einsatzszenarien sind mit dem neuen Service bei den Programmveranstaltern denkbar?
Daniel Wolbers: Wir sehen hier im ersten Schritt zwei Szenarien je nach Branche unserer Kunden. Für TV-Veranstalter bietet sich die Nutzung der KI-Services als einfache Art an, um Meta-Daten für die Anreicherung des Archivs von ausgestrahlten Sendungen zu verwenden. Speech-To-Text ist hier nur der erste Schritt, auf unserer Roadmap stehen daneben natürlich noch weitere KI-Services wie zum Beispiel Personen- oder Objekterkennung, Texterkennung im Bewegtbild und mehr, die wir nach und nach ergänzen können. Durch die Anreicherung von Archiven mit diesen zusätzlichen Meta-Daten ist es in Zukunft dann deutlich einfacher, relevante Archivbeiträge zur Anreicherung von aktuellen Sendungen durch die Suche nach Wörtern, die im Beitrag erwähnt wurden, aber nicht als „Schlagwort“ händisch als Meta-Daten eingeben wurden, zu finden. Für Radio-Kunden oder auch zum Beispiel Landesmedienanstalten sehen wir die Möglichkeit zur Suche nach bestimmten Wörtern in ausgestrahlten Sendungen, um zum Beispiel Hörer-Beschwerden zu bearbeiten, aber auch hier, um später Archiv-Material leichter zu finden. Für den Audio-Bereich stehen hier ebenfalls noch weitere Features auf der Roadmap, so planen wir eine Erkennung von gespielter Musik und Erzeugung von automatischen Statistiken zu zum Beispiel Genre, Sprache, Künstler, etc.
FKT: Ein Ausblick: Wann rechnen Sie mit den ersten Implementierungen „on air“?
Daniel Wolbers: Unser Ziel ist es, bis Ende dieses Jahres die ersten Kunden „am Netz“ zu haben. Die Entwicklung der Lösung wird damit aber, wie bereits erwähnt, nicht abgeschlossen sein, sondern wir werden weiter Schritt für Schritt neue Funktionen hinzufügen.
Interview: Martin Braun