07.05.2020 | Ausgabe 05/2020

Deep Learning in der Media Supply Chain

Deep Learning / Quelle: shutterstock/metamorworks

Moderne Fernsehproduktionsprozesse haben nicht nur Anforderungen an gut definierte Metadatenmodelle, vielmehr besteht durch eine zunehmend datengetriebene Medienproduktion die Notwendigkeit nach inhaltlich automatisierter Metadatenerzeugung. Entsprechend wird der Einsatz von Künstlicher Intelligenz (KI) in größeren Medienhäusern für eine effizientere Monetarisierung des Contents über die gesamte Media Supply Chain hinweg unabdingbar.
Dieser Artikel beschäftigt sich mit dem Einsatz von Deep Learning (einer Teilmenge des maschinellen Lernens) und beleuchtet Anwendungsbeispiele und Einsatzmöglichkeiten von sowohl direkt einsetzbaren, vortrainierten Services als auch die Vorteile von selbst trainierten Modellen und wie das kombiniert in einem Medienproduktionssystem aussehen könnte.

While modern television production processes see well-defined metadata models as a requirement, these have, by the very nature of data-driven media production, become subject to an increasing demand for automated metadata generation. Accordingly, the use of artificial intelligence (AI) in larger media houses has become indispensable for achieving a more efficient and monetizable value creation of content across the entire media supply chain.
This article deals with the use of deep learning (a subset of machine learning) and highlights use cases and possible applications of both ready-to-use pre-trained services and the advantages of self-trained models and how this could be combined in a media production system.

„Fool bot“
„Fool bot“ / Quelle: shutterstock/koya979

Machine Learning, Deep Learning oder doch KI?

Kaum ein Thema beherrscht die branchenübergreifende Diskussion in Deutschland mehr als die Möglichkeiten der Künstlichen Intelligenz, Stichwort: Digitale Transformation. So sieht eine von eco e. V. in Kooperation mit Arthur D. Little herausgegebene Studie für die deutsche Wirtschaft bis 2025 etwa ein Umsatzpotenzial von rund 150 Milliarden Euro, bei einem Gesamtvolumen von rund 450 Milliarden Euro.
Doch um was handelt es sich eigentlich genau, wenn wir von KI sprechen? Und ist das, was wir heute praktisch einsetzen tatsächlich schon KI?
Künstliche Intelligenz ist der Oberbegriff für eine maschinelle Nachbildung kognitiver Fähigkeiten des Menschen: Das Sehen, Hören, Analysieren und Verstehen von Zusammenhängen. Er umfasst die Teildisziplinen Machine Learning (ML) und Deep Learning (DL).
Machine Learning wiederum bezeichnet eine Reihe mathematischer Methoden, die anhand von Trainingsbeispielen bestimmte Muster in Datensätzen erkennen kann. Bei entsprechendem Systemdesign „lernt“ die Maschine also hinzu. Deep Learning ist ein Teilbereich des ML und setzt künstliche neuronale Netze ein, die ein autonomes Lernen des Systems ermöglichen.
Die im Bereich DL eingesetzten künstlichen neuronalen Netze sind ihrem biologischen Vorbild nachempfunden. Sie bestehen nicht nur aus mathematischen Regeln, sondern zeichnen sich durch eine sehr komplexe innere Struktur mit sogenannten hidden layers (Zwischenschichten) zwischen Input und Output aus, die sie nach entsprechendem Training mit möglichst großen und genauen Datenmengen einen Sachverhalt erkennen und darauf reagieren lassen.
Deep Learning stellt also genau genommen die im Moment auf Basis von Trainingsbeispielen am fortschrittlichsten selbständig lernende Teilmenge der KI dar, die ganz klar in der realen Welt angekommen und bereits in vielen Bereichen im praktischen Einsatz zu finden ist. So werden DL-Anwendungen unter anderem für Chatbots, bei der automatischen Textanalyse, in der maschinellen Übersetzung, bei digitalen Sprachassistenten oder in der Bild- und Videoanalyse eingesetzt. Auch unser aller beliebteste Suchmaschine hat selbstverständlich einen DL-Algorithmus integriert.

Warum Deep Learning in den Medien einsetzen?

Stark vereinfacht lässt sich also sagen, dass Deep Learning bereits jetzt dort sinnvoll zum Einsatz kommen kann, wo wiederkehrend extrem große Datenmengen zu verarbeiten sind, die manuell von einer Person gar nicht verarbeitet werden könnten. Denn die Stärke von DL liegt darin, Muster und Strukturen unterschiedlicher Datentypen zu erfassen, Daten zu taggen und anzureichern.
Gerade der Medienbereich mit seinem täglichen Aufkommen aktueller Zahlen, Daten und Fakten scheint also für den Einsatz von Deep Learning geradezu prädestiniert zu sein. Und, richtig eingesetzt, können DL-basierte Anwendungen den Redakteur tatsächlich enorm bei der täglichen Arbeit unterstützen, egal ob er im Bereich Text, Video, Audio oder crossmedial tätig ist. Und auch viele andere Bereiche entlang der Media Supply Chain können von DL profitieren, wie wir weiter unten näher erläutern werden.
Deep Learning hat also das Potential, die digitale Transformation der Medienlandschaft weiter voranzutreiben und die Art der Medienproduktion auf lange Sicht stark zu verändern. Doch bei vielen Medienschaffenden schwingt noch eine gehörige Portion Skepsis in Bezug auf den Einsatz von KI-Anwendungen mit, auch wenn deren Akzeptanz immer weiter steigt. Bei den Mediennutzern können sich inzwischen über die Hälfte vorstellen, automatisch erzeugte Verkehrs- (51 Prozent) oder Wetterberichte (63 Prozent) zu konsumieren, wie eine online-repräsentative Studie von Statista im Auftrag von nextMedia.Hamburg zeigt.
Doch ohne die richtige Herangehensweise kann aus dem Wunsch nach mehr Automatisierung schnell ein Albtraum-Szenario werden. Welche Probleme auftreten können und wie diese mit einem innovativen, übergreifenden Ansatz zu lösen sind, thematisieren wir im weiteren Verlauf des Artikels.

Vidinet Cognitive Services – die Intelligenz-Schicht für das MAM
Vidinet Cognitive Services – die Intelligenz-Schicht für das MAM / Quelle: Arvato Systems

Media Supply Chain und KI verbinden –wie geht das?

Nachdem wir nun tief im Deep Learning angekommen sind, würden wir die genannten Möglichkeiten natürlich auch gerne zielgerichtet einsetzen. Dabei ist in unserer medienschaffenden Domäne in der Regel von der sogenannten Media Supply Chain die Rede. Vom Eingang eines Videos - aber auch anderer Medien - in einen Sender oder größeres Medienunternehmen über die Planung, Produktion, Vermarktung bis hin zur Ausstrahlung. Also alle Aktivitäten, die die sogenannte Medienwertschöpfung ausmachen.
Und die Frage, die sich (auch für uns als Anbieter und Systementwickler) natürlich stellt, ist, wie wir diese Media-Supply-Chain mit der vielversprechenden Welt der künstlichen Intelligenz fachlich und technisch mehrwertbildend verbinden, kurzum noch smarter und noch schneller machen können.
Wie integrieren wir unsere üblicherweise bereits optimierten Systeme mit dem großen und rasant wachsenden Angebot an AI-Providern mit vortrainierten und fertig als Services nutzbaren Modellen, Frameworks sowie Entwicklungs-Stacks und Umgebungen? Angefangen von Technologie-Generalisten wie Microsoft und Google, über kleinere und mittelgroße Spezialanbieter bis hin zu frei verfügbaren Bibliotheken wie „Scikit-learn“ oder „Tensorflow“, die zudem die Möglichkeit zur Erstellung eigener trainierter Modelle bieten.

„A fool with a tool is still a fool”…

…ist ein vielfach verwendetes Zitat aus der IT-Welt. Und kaum ein Statement trifft den Nagel mehr auf den Kopf, wenn Zweck und Ziel beziehungsweise Erfolg des Einsatzes von KI nicht bekannt oder definiert sind. Ohne am künftigen Potential des nennen wir es einmal Digitalisierungs- beziehungsweise Automatisierungswerkzeugs „künstliche Intelligenz“ zu zweifeln, gehen doch aktuell die Vorstellung von dem, was KI aus dem Stand zu leisten vermag, und der Arbeit, die in der Realität auch für kleinere Optimierungen anfällt, stark auseinander. Nichtsdestotrotz ist genau jetzt die richtige Zeit, Systeme und Produktfamilien (VPMS, BMS und Vidispine) auf die kommenden Paradigmen und das Potential vorzubereiten sowie erste ausgereifte Services bereits in der Produktion zu nutzen.

Wo genau liegen denn die Chancen?

Aber wo liegen den nun die KI-Potentiale innerhalb der Media Supply Chain? Systemhistorisch sind diese zunächst innerhalb der klassischen Systeme zu verorten, wie beispielsweise

  • dem Ingest - heute bestimmte automatische Analysen des einlaufenden Materials, morgen zum Beispiel Deep-Fake-Erkennung, Copyright Monitoring
  • der Verwaltung und Produktion der Assets - heute Tagging, Entity Recognition, Topic Clustering, morgen Echtzeitempfehlungen beim Rohschnitt, automatischer Highlight-Schnitt, Robot-Journalismus
  • der Planung - automatische Programmplanung etwa aufgrund von Ausstrahlungslizenzen oder Vermarktungsmustern
  • der Vermarktung - Reichweitenvorhersage, Nachahmung von Buying Patterns
  • bis zur (teil-)automatisierten Ausspielung (beziehungsweise Paketierung) auf unterschiedlichen Kanälen und Plattformen.

Anstrengungen, die technisch-historisch bedingten Daten-Silos aufzuheben, sind in den Medienhäusern aktuell bereits stark sichtbar, was im Kontext des maschinellen Lernens die Grundvoraussetzung ist, um künftig neue Werte für übergreifende Anwendungsfälle zu schaffen; für Assistenzsysteme, die bereits im Schnitt, zum Beispiel aufgrund von Reichweitenmessungen oder Sendeplatzplanung, Empfehlungen aussprechen oder wegen fehlender Ausstrahlrechte Hinweise auf möglicherweise zu entrichtende Lizenzgebühren geben und äquivalente Vorschläge machen.

Analyzed Data Units (ADU) – vereinheitlichtes Metadatenkonzept
Analyzed Data Units (ADU) – vereinheitlichtes Metadatenkonzept / Quelle: Arvato Systems

Können wir da auch ein bisschen Ordnung reinbringen?

Entlang der Medienwertschöpfungskette lassen sich die verschiedenen Systeme/Datensilos zwar nicht völlig trennscharf, aber derzeit doch noch grob in zwei Lager einteilen: Auf der einen Seite haben wir die sogenannte Business Intelligence, die zum Ziel hat, das eigene Geschäft, die Audience und die eigenen Prozesse hinsichtlich Planung und Vermarktung besser zu verstehen. Typischerweise liegen in diesen Business-Management-Systemen (Programmplanung, Rechteverwaltung, Werbevermarktung) viele Daten bereits in strukturierter Form für eine Optimierung mit Machine Learning vor, so dass bei den eingesetzten Lernmethoden nicht unbedingt mit Deep Learning, sondern bereits mit Machine Learning in Kombination mit klassischem Feature-Engineering zumeist gleichwertige Ergebnisse erzielt werden können wie mit DL. Zusätzlich mit dem Vorteil der Nachvollziehbarkeit, zum Beispiel durch Angabe des Rankings der genutzten Features. Das erlaubt ein besseres Verständnis, auf welcher Basis der Algorithmus (verschiedenste Regressions- oder Klassifikationsmodelle) seine Entscheidung bei der Vorhersagefindung trifft. Für ein verständliches Visualisieren stehen zusätzlich viele geeignete Tools bereit, die hier nicht weiter thematisiert werden sollen.
Auf der anderen Seite haben wir es mit der sogenannten Content Intelligence zu tun, also der automatischen Inhaltserschließung, Strukturierung und zum Teil auch Verarbeitung von unterschiedlichen Daten, insbesondere in Form von Medientypen wie Video, Bild, Ton und Text. Ziel ist es, diese in prozessoptimierende und monetarisierbare Erkenntnisse zu verdichten.
Und insbesondere im Bereich der Content Intelligence kommt es zu einer sehr guten Synergie zwischen der Medienvielfalt, die unsere Domäne zu bieten hat – vorwiegend Video, aber einhergehend und im crossmedialen Sinne auch Bild, Ton und Text und den Stärken des Deep Learning. Ohne weitere inhaltliche Intuition (bis auf vorbereitende Formatanpassungen) der Eingabedaten und nur auf Basis dieser Trainings- und Validierungsdaten kann die Maschine mit entsprechender Skalierung und Hypertuning in die Lage versetzt werden, Patterns beziehungsweise Klassifizierung zu lernen und später auf unbekannte Beispiele anzuwenden. Dabei kommen im Deep Learning unterschiedliche neuronale Netzarchitekturen zum Einsatz. In der Computer Vision sind es vor allem CNNs (Convolutional Neural Networks), die auf verschiedenen Wettbewerben in den letzten Jahren für Furore sorgten. Bei der Audio- und Sprachverarbeitung kommen vorwiegend sogenannte RNNs (Recurrent Neural Networks) zum Einsatz, die bei der Erkennungsqualität den Menschen in einigen Bereichen bereits übertreffen. Welche Möglichkeiten dies für ein eigenes Training bedeutet, schauen wir uns in einem der folgenden Abschnitte an.

Wie könnte eine Strategie aussehen?

An diese Gegebenheiten lehnen wir unsere Produktstrategie entsprechend an. Mit Hilfe von Deep Learning erhalten wir immer mehr Einsichten in Medienobjekte wie es zuvor (automatisiert) nicht möglich war, so dass unsere Vision „alles über jeden Frame“ wissen zu wollen, gepaart mit zunehmend Echtzeit-kuratierenden Fähigkeiten im Media Asset Management Gestalt annimmt.
Und damit das nicht pro Applikation oder Lösung geschieht, haben wir uns frühzeitig überlegt, eine Art Intelligenz-Schicht mit unseren Produkten zu verknüpfen, den sogenannten Vidinet Cognitive Services, die die gesamte Kommunikation, aber auch Mehrwertbildung wie etwa eine Normalisierung und dessen Vorteile verwaltet. Bestandteile dieser Strategie, die sich bei uns sukzessive in der Umsetzung befinden, sind unter anderem:

  • Crossmediale Analysen -> nicht nur Video, sondern auch Bilder, Audio, Text
  • Multi Cloud -> verschiedenste Provider und Partner anbinden (agnostisch)
  • Training eigener Entitäten -> insbesondere im Bereich der Computer Vision
  • Knowledge Graph – Zusammenhangsmodelle aus unterschiedlichen Datensilos bilden und diese in Echtzeit mit dynamischen Fragestellungen abfragbar machen – Mehrwert-Services etwa rund um Lizenz- oder Genealogieinformationen
Analyzed Data Units (ADU) – vereinheitlichtes Metadatenkonzept
Analyzed Data Units (ADU) – vereinheitlichtes Metadatenkonzept / Quelle: Arvato Systems

Vortrainiert? Klingt gut!

Die niedrigste Hürde für den Einstieg in die Welt des DL ist sicherlich die Anbindung von fertig vortrainierten Modellen unterschiedlicher Provider, die nicht aufwändig selbst trainiert werden müssen, auf dessen Training aber auch wiederum kein Einfluss genommen werden kann. Diesbezüglich existieren (typischerweise SaaS-) Lösungen mit teilweise unterschiedlichen Reifegraden, etwa bei Bild/Video (Objekterkennung, Gesichtserkennung) oder Audio (Transcript-Erzeugung, Sprecherzuordnung) und Textverarbeitung (NLP- Named Entity Recognition, Topic Classification), die direkt integriert und „Blackbox-artig“ eingesetzt werden können.
Die Herausforderung liegt hierbei allerdings darin, für jede produzierende Medieneinheit festzustellen, ob die gewünschten Ergebnisse in der gewünschten Güte (zu einem wirtschaftlichen Preis und mit der geforderten Datensicherheit, aber auch der erwarteten Verarbeitungsgeschwindigkeit und benötigten Netzwerk-Latenz) erzielt werden können. Zum Beispiel: Kann ein „Speech-To-Text“ Provider A Vorteile oder eine höhere Erkennungsrate für umgangssprachliche Beiträge haben, während sich Provider B eher auf eine fachspezifische Erkennung mit viel Wortneuschöpfung spezialisiert. Darauf aufbauend könnte es sein, dass die Kombination aus dem erzeugten Transcript von Provider A mit der linguistischen Datenverarbeitung von Provider C sehr gute Ergebnisse erzielt.
In unserer Produktstrategie wollen wir daher den sich daraus ergebenden „Best of Breed“-Ansatz (viele spezialisierte „KIs“ miteinander zu verbinden) unterstützen. Das spiegelt sich zum Beispiel im Angebot eines vereinheitlichten Metadatenkonzepts, den sogenannten Analyzed Data Units (ADU) wider. Diese ermöglichen es, unterschiedliche Ergebnis-Schemata zu normalisieren und sie den oberen konsumierenden Schichten durch die gesamte Wertschöpfungskette mit einem einheitlichen Metadatenmodell zur Verfügung zu stellen. Dadurch wird eine einheitliche User-Experience (UX) unterstützt (ohne dabei die Spezial-Erkenntnisse/Features der einzelnen Provider zu vernachlässigen).
Darüber hinaus beherbergt dieser einheitliche Metadatenansatz weitere Vorteile. Gleichartige Erkennungskonzepte (zum Beispiel Gesichtserkennung), analysiert von unterschiedlichen Providern, können nebeneinander existieren und verglichen werden, aber auch, je nach Workflow, explizit geschaltet werden. Durch die Gleichartigkeit der Datenstruktur, ähnlich wie in einer Programmiersprache, können nun Operationen in vielfältiger Kombination darauf ausgeführt werden. So kann das Ergebnis von Analyse A als Ausgangspunkt für Analyse B oder das erwähnte Beispiel aus der Verbindung Transcript und NLP genommen werden. Dieses Hintereinanderschalten ist bei uns der sogenannte „Cascade“-Operator.
Des Weiteren versionieren und bilden wir ein standardisiertes Metadatenset, um jeden einzelnen Analysevorgang selbst nachzuvollziehen, damit im Zweifel – etwa bei zu vielen „False Positives“ – auch ermittelt werden kann, woher das Datum eigentlich kommt und welche vorhergesagte Zuverlässigkeit (Confidence) erkannt wurde. Dies lässt entsprechende Rückschlüsse zu, wie etwa die Schwellwerte verändert werden könnten/sollten, damit die Ergebnismenge einer zufriedenstellenden UX entsprechend angepasst werden kann (und das wiederum aufgrund von Metadaten ohne neu analysieren zu müssen).
Die unterschiedlichsten Analysevorgänge per API auslösen zu können, versteht sich von selbst. Kunden einer „Vidispine-Api as a Service“ (VaaS) haben zusätzlich die Möglichkeit, die Ergebnisse im zugehörigen Content-Viewer Timecode-akkurat zu sichten, aber auch neue Analysen zu triggern. Darüber hinaus werden diese Controls entsprechend im Vidispine Development Toolkit (VDT) für eigenes Oberflächen-Customizing den Kunden zur Verfügung gestellt.

Das System selbst trainieren – dieser Vision geht Arvato Systems aktuell mit Vidinet nach.
Das System selbst trainieren – dieser Vision geht Arvato Systems aktuell mit Vidinet nach. / Quelle: Arvato Systems

Ab ins Trainingslager?

Es gibt einfach zu viele visuelle Informationen in der Welt. Zumindest so viele, dass auch Hyperscaler derzeit an ihre Grenzen stoßen, alle Entitäten im Bereich Computer Vision trainieren zu können, die für Medienschaffende insbesondere im Storytelling aktuell oder regional Bedeutung haben oder in archiviertem Material vorkommen. Diese Situation wird sich voraussichtlich auch auf absehbare Zeit erstmal nicht ändern.
Auf der anderen Seite wäre es doch ein sehr interessanter Ansatz, bestimmte Entitäten wie Personen (Gesichter) direkt aus dem MAM heraus selber trainieren zu können und der Mitarbeiterin alle Werkzeuge hierzu an die Hand zu geben, so dass sie praktisch eigenständig Einfluss auf die Erkennungsqualität „ihres“ Systems nehmen und beobachten kann, wie sich dieses Training auch unmittelbar auf weitere Assets auswirkt. Genau dieser Vision gehen wir aktuell nach. Dabei gibt es verschiedene Komponenten, die in einem Ende-zu-Ende-Workflow zusammenspielen müssen. Beste Zutaten für ein Gelingen sind dabei:

  • Trainingsdaten beziehungsweise Label-Management
  • Im Videobereich die entsprechende „Video-Pipe“ unter Kontrolle zu haben
  • Wahl des Algorithmus beziehungsweise der Integration

Auch diese drei Punkte könnten an dieser Stelle magazinfüllend beschrieben werden, deshalb folgend die Essenz zu den Oberpunkten.

Trainingsdaten erzeugen, warum nicht direkt im MAM?

Beschriftete Trainingsdaten erzeugen ist das Verschlagworten von Morgen. Und da es sich ja nicht um die Hauptaufgabe in einem kreativen Prozess handelt, sollte der Aufwand hierzu möglichst klein gehalten werden. Es stellt sich die Frage, wie viele relevante Trainingsbeispiele in welcher Qualität denn benötigt werden? Hier ist es von Vorteil, Algorithmen beziehungsweise Lösungen zu wählen, die möglichst weniger geringauflösender Beispiele für eine trotzdem hohe Erkennungsqualität bedürfen. Für das Erzeugen der Trainingsdaten gibt es wiederum auch unterschiedliche Varianten: Neben einer zentralen Bereitstellung könnte zum Beispiel das Auslösen von Micro-Tasks (an entsprechend verarbeitende Einheiten) direkt aus der Oberfläche heraus oder ein interaktives Labeln direkt im Player (Grafik) ein smarter Ansatz sein. Damit wiederum nachvollzogen werden kann, welche Trainingsbeispiele bereits den Algorithmen bekannt sind und welche nicht, ist es wichtig, auch die gelabelten Trainingsdaten suchen, sichten und bearbeiten zu können. Und da diese Trainingsdaten wiederum Medienobjekte sind, warum das also nicht direkt im MAM erledigen?

Video-Pipe im Griff oder was benötigt der Algorithmus eigentlich?

Üblicherweise ist es zwar das Ziel, den Inhalt des gesamten Video-Assets automatisiert zu erschließen, aber ist es deshalb auch zwingend erforderlich, das vollständige Video-File zu transferieren und analysieren zu lassen (was in der Regel die kostenintensivste Variante gegenüber etwa der Bildanalyse darstellt)? Ist es besser das HiRes oder das LoRes an die Vorhersage zu schicken? Oder reichen vielleicht auch die Extraktion der Audiospur oder von Key-Frames für eine bestimmte, adäquate Erkennung? Wie granular und akkurat können wir die Timeline aus den Einzelinformationen berechnen? Genau mit diesen Fragestellungen experimentieren auch wir, um ein möglichst gutes Verhältnis von Erkennungsqualität, Geschwindigkeit und Kosten zu erreichen und anbieten zu können. Die Adressierung auf die unterschiedlichen Repräsentationen des Video-Assets sind jedenfalls in der Regel im MAM erzeugbar oder bereits vorhanden.

Wer trainiert denn nun?

Sind die oben genannten Punkte entsprechend komponentenorientiert aufgebaut, ergeben sich hinsichtlich des Deep Learnings viele interessante Vorteile und Freiheiten. Auf der einen Seite können Trainingsdaten beliebig in Sammlungen organisiert und gruppiert werden, beispielsweise Gesichter von regionalen Politkern oder Prominenter. Auf der anderen Seite könnte pro Trainingsdatensammlung orchestriert werden, ob das Training (via API-Schnittstellen) durch einen Partnerservice durchgeführt wird, etwa einen der bekannten IT-Generalisten oder durch spezialisierte Partner, oder vielleicht sogar durch ein selbst zu trainierendes Modell.
Aber was bedeutet es denn, ein visuelles Konzept selber zu trainieren? Auch dieses Thema ist abendfüllend. Einfach ausgedrückt, gibt es die folgenden Möglichkeiten

  • Von Grund auf („from scratch“) trainieren
  • Die aufwändigste aller Methoden, da sie je nach Konzept mehrere (zehn-) tausend Trainingsbeispiele benötigt und zudem noch Expertise in der Erstellung von relevanten und unverzerrten Trainingsdaten selber. Für eine automatisierte Erstellung der Trainingsdaten sowie das benötigte infrastrukturelle Aufsetzen und Data Engineering sind unterschiedliche Rollen notwendig – mehr hierzu im nächsten Abschnitt.
  • Bei bestimmten Herausforderungen ist dies aber der einzig gangbare Weg.
  • Das Übertragen von Wissen (Transfer Learning)
  • Transfer-Lernen ist eine Methode zur Wiederverwendung eines Modells oder Wissens für eine andere verwandte Aufgabe. Insbesondere im Bereich der Bildanalyse wird hier von vortrainierten Modellen, genauer gesagt von vor-trainierten Schichten (Convolutional Base) in Form von bereits erkannten Features Gebrauch gemacht, um auf oberer CNN-Architektur-Ebene eigene Konzepte zu trainieren. Das hat den Vorteil, dass sich das Training (je nach Ähnlichkeit des trainierten Netzes zu meinem Problem) auf wenige hundert Beispiele reduzieren lässt sowie die eigentliche Trainingszeit und der Rechenaufwand sich stark verringert.
  • Allerdings klingen mehrere hundert Beispiele für den genannten interaktiven Ansatz nicht gerade nach Vergnügen, so dass an dieser Stelle auf eine dem interaktiven Anwendungsfall fördernde Variante des Transfer-Lernens hingewiesen sei. Dem so genannten One-Shot-Lernen, bei dem versucht wird, auf Grundlage von nur einem oder ganz wenigen Trainingsbeispielen eine entsprechende Vorhersage zu realisieren. Wer sich näher mit der Thematik beschäftigen möchte, wird um folgende Stichworte dabei kaum herumkommen: Siamese Networks, Triplet Loss, MTCNN, Yolo, aber auch Fingerprinting von Objekten. Letzteres bietet zusätzlich auch noch mal ganz neue Optionen für eine nachgelagerte Verschlagwortung ohne erneutes Analysieren der physischen Videoessenz, rein auf Basis von Metadaten-Mapping.

Als kleines Fazit können wir auch bezüglich des visuellen Trainings ziehen, einen agnostischen „Best of Breed“-Ansatz in unseren Produkten (VCS) zu verfolgen. Im Idealfall auch hier in Zusammenarbeit mit Partnern realisiert, bei bestimmten Problemstellungen werden wir aber auch selbst erzeugte Modelle über die generalisierten Schnittstellen in gleicher Art und Weise integriert zur Verfügung stellen.

Bis zum Einsatz der KI in der Praxis sind viele verschiedene Rollen nötig
Bis zum Einsatz der KI in der Praxis sind viele verschiedene Rollen nötig / Quelle: Arvato Systems

Und wie kommt diese KI endlich in Produktion?

„KI“ ist interdisziplinärer Teamsport – von der Idee über die Validierung mittels eines Prototyps bis hin zur Überführung in die Produktion werden viele verschiedene Rollen benötigt. Angefangen vom Business-Analysten, der sich gut mit der Problemstellung innerhalb der jeweiligen Domäne auskennt, über den Data Engineer, der es insbesondere schafft, die benötigten Daten aus unterschiedlichen Quellen in ausreichender Menge und relevanter Güte bereitzustellen, bis hin zum Data Scientist, der die verschiedensten ML- beziehungsweise DL-Algorithmen entsprechend implementiert und verifiziert (um nur einige Rollen und Aufgaben zu nennen).
Erfahrungen aus der Praxis zeigen in diesem Zusammenhang, dass das Data Engineering nicht selten den überwiegenden Aufwand der Arbeit in Anspruch nimmt, wohingegen die ML-Umsetzung einen geringeren Teil ausmacht – ein Verhältnis von 80/20 ist durchaus nicht unüblich.
Nachdem die interdisziplinären Rollen bekannt sind, ist es sehr empfehlenswert, die Vorgehensweise von der Idee bis zur Live-Setzung mit einem möglichst standardisierten Vorgehensmodell anzugehen, um den Kunden in jedem Stadium seiner AI-Journey zu unterstützen. Die Abfolge kann dabei grob in vier Bereiche unterteilt werden (Grafik), die in sich jeweils wieder (agile) Iterationen beinhalten können:

  • Die AI Roadmap
  • Bei der AI Roadmap geht es um die Identifikation relevanter AI-Anwendungsfälle. Ein gewichtetes Use-Case-Portfolio liefert den nötigen Überblick für die anstehende AI-Journey.
  • Das AI Lab
  • Im AI Lab entsteht innerhalb weniger Tage aus der Idee ein verifizierter Prototyp.
  • Die AI Factory
  • In der AI Factory entwickeln wir einen einsatzfähigen AI-Service und integrieren diesen vollständig in das produktive Umfeld.
  • Die AI Operations
  • AI Operations steht für einen stabilen und dauerhaften Betrieb des produktiven AI-Service sowie dessen kontinuierliche Verbesserung.

Da das Thema „KI“ allgemein aber auch im Hause Arvato Systems seit geraumer Zeit sehr stark an Aufmerksamkeit gewonnen hat, tauschen sich die verschiedensten Rollen aus unterschiedlichen Geschäftszweigen im so genannten Arvato Systems – AI Competence Cluster untereinander aus – in einem Netzwerk aus übergreifend tätigen Kollegen mit dem Ziel des gegenseitigen Wissenstransfers und Inspiration für unterschiedliche Lösungsansätze. Dabei werden viele spannende Beispiele aus anderen Bereichen vorgestellt, unter anderem Fälle zu interaktiver Fashionerkennung, Extraktion Manuscript Insights, Gebäude-Anomalie-Erkennung, Datenjournalismus (zum Beispiel anhand einer „Crime–Map“), um nur einige zu nennen. Diese Synergie führt wiederrum zu weiterer Ideenfindung und der Erkenntnis, dass das Thema KI nach wie vor hochinteressant ist, weiter stark an Fahrt aufnehmen wird und künftig einfach in jeden IT-Werkzeugkasten gehört.


 

Newsletter
Ja, ich möchte den Newsletter von FKT abonnieren