Auch im Medienbereich dreht sich die Welt immer schneller. Vorhandener Content muss optimal und kanalübergreifend verwertet und automatisch klassifiziert sowie gerade im Nachrichtenumfeld in Echtzeit um Updates ergänzt werden. Zusätzlich müssen Redaktionen Trending Topics erkennen und passende Beiträge produzieren können.
Einleitung
Um aktuelle Themen so früh wie möglich zu erkennen und redaktionell aufzugreifen, kommen in Medienunternehmen zunehmend KI-basierte Tools und Methoden zum Einsatz, die Content mit Hilfe linguistischer, statistischer und semantischer Methoden analysieren und anreichern. Auf Basis frei verfügbarer Datenquellen wie Wikidata, Wikipedia und Wiktionary ist es mit diesen Ansätzen möglich, auch in mehrsprachigen Umgebungen Content nahezu in Echtzeit zu analysieren, Themen unterschiedlicher Granularität daraus abzuleiten und eine sich ändernde Relevanz festzustellen. Die Condat AG hat hierfür auf der Basis ihres Produktes Smart Media Engine ein neues, auf semantischen Fingerabdrücken beruhendes Clustering-Verfahren entwickelt, mit dem Topics automatisch erkannt und den analysierten Inhalten zugeordnet werden können. Mit Hilfe einer Trendanalyse können die Redakteure darüber hinaus schnell erkennen, wann ein Thema an Bedeutung gewinnt oder verliert. Ein Vorteil der Lösung von Condat ist ihre nahtlose Integration als Add-on in das Newsroom-System OpenMedia. Den Ablauf des Verfahrens skizziert Abbildung 1.
Grundlagen
Um für eine große Menge an Content (Texte, Bilder, Audios, Videos) die relevanten Themen ableiten zu können, muss dieser zunächst inhaltlich analysiert werden. Hierfür werden auf vielfältige Weise externe Wissensquellen verwendet, die sich in zwei Gruppen gliedern: globale und domänenspezifische. Globale Quellen decken zahlreiche Themengebiete ab und werden im Medienbereich meist als Grundlage benötigt, da Film und Fernsehen multithematisch sind. Verwendet werden grundsätzlich die Wikipedias in den unterschiedlichen, benötigten Sprachen [1] und in mehrsprachigen Systemen für deren Verknüpfung zusätzlich Wikidata [2], siehe Abbildung 2. Bei Bedarf an speziellen Themen oder einer größeren Genauigkeit in bestimmten Bereichen können domänenspezifische Ontologien hinzugenommen werden und es entsteht automatisch eine für den jeweiligen Fall genau angepasste Wissensbasis.
Die textuellen Bestandteile der Inhalte, also Texte und Metadaten, werden einer automatischen, umfangreichen sprachlichen und semantischen Analyse unterzogen. Hierbei werden Konzepte aus der Wissensbasis eindeutig und mit unterschiedlicher Relevanz erkannt, es findet unter anderem eine Disambiguierung und Named-Entity-Recognition (NER) statt. Das Ergebnis ist für jeden Content ein sogenannter semantischer Fingerabdruck, also eine gewichtete Liste von Ontologie-Konzepten, der seinen thematischen Inhalt beschreibt.
Sinnvoll ist außerdem die zusätzliche Verwendung von Wörterbüchern, die allgemeine sprachliche Informationen wie Synonyme, Abkürzungen oder thematisch verwandte Begriffe enthalten. (zum Beispiel wordnet [4], OpenThesaurus [5]). Standardmäßig wird aus den Wiktionarys [6] der jeweiligen Sprachen ein Grammatik-Modell aufgebaut. Damit gelingt es, bestimmte Flexionen von Konzepten besser zu erkennen, z. B. „Deutsche Oper“, wenn im Text „… an der Deutschen Oper …“ steht.
Da die semantischen Fingerabdrücke objektübergreifend sind, können mit ihnen die berühmten „Äpfel mit Birnen“ verglichen werden. Es kann mit einem allgemeinen Recommendation-Verfahren die Ähnlichkeit bzw. Relevanz zwischen verschiedenen Inhalten oder Suchbegriffen festgestellt werden. Durch die Verwendung von sprachunabhängigen Konzepten mit Hilfe von Wikidata sind die semantischen Fingerabdrücke außerdem sprachunabhängig und ermöglichen dadurch sprachübergreifende Empfehlungen. Bei diesem Recommendation-Prozess wird wiederum die erzeugte Wissensbasis verwendet und eine semantische Suchraumerweiterung durchgeführt, wodurch auch Dokumente gefunden werden können, die zum Beispiel nur über Synonyme oder thematische verwandte Begriffe mit dem Ausgangsobjekt verknüpft sind. Details zu dieser Analyse und Recommendation können in [3] nachgelesen werden.
Topic Detection
Die automatische Erkennung von thematisch zusammenhängenden Clustern von Content-Dokumenten geschieht ebenfalls über eine Ähnlichkeitssuche. In diesem Fall aber als administrativer Prozess, da hierfür alle oder ein großer Anteil an Dokumenten paarweise miteinander verglichen werden müssen. Die Ergebnisse werden auch symmetrisiert, da wegen der Suchraumerweiterung, die Ähnlichkeit von A zu B im Allgemeinen ungleich der Ähnlichkeit von B zu A ist, dies wird ausgemittelt.
Die Cluster-Ermittlung geschieht dann über eine Variante des wohlbekannten Data-Mining-Algorithmus DBSCAN (Density-Based Spatial Clustering of Applications with Noise). Dieser Algorithmus besitzt gegenüber anderen mehrere Vorteile: Er benötigt keinen geometrischen Raum, sondern lediglich eine Distanzfunktion zwischen allen Objekten (Dokumenten). Die Kehrwerte der von der SmartMedia Engine bereitgestellten Ähnlichkeiten können einfach als Distanzen verwendet werden und ähnliche Dokumente kommen dadurch natürlich in denselben Cluster. Dokumente, die zu nichts anderem ähnlich sind (Noise) werden ausgefiltert. Außerdem muss die Anzahl der gewünschten Cluster nicht vorgegeben werden, sondern ergibt sich automatisch, indirekt gesteuert über den sogenannten Bindungs-Schwellwert: Alle Objekte in einem Cluster müssen zu zumindest einem anderen Objekt im Cluster in ihrer Ähnlichkeit diesen Schwellwert erreichen.
Der Algorithmus erfordert auch nicht, dass alle Cluster die gleiche Größe, also Anzahl an Objekten, haben. Es kommt zusammen, was wirklich zusammengehört.
Condat hat dieses Verfahren um einen weiteren Schwellwert erweitert, dem sogenannten Durchmesser-Schwellwert (CDBSCAN). Dieser fordert, dass alle Dokumente in einem Cluster jeweils paarweise eine gewisse Ähnlichkeit haben müssen. Der Durchmesser-Schwellwert muss kleiner sein als der Bindungs-Schwellwert. Dies bewirkt, dass Cluster tendenziell nicht „schlauch-“ oder „ringförmig“ werden, sondern eher „kartoffelförmig“, siehe Abbildung 3 (unten rechts), was eher dem gewünschten Verhalten entspricht.
Für jeden gefundenen Cluster wird dann ein Topic oder Profil definiert. Dabei werden die Fingerabdrücke der einzelnen Dokumente zusammengeführt und es findet gegebenenfalls noch eine Reduktion statt, wenn er zu groß und unhändelbar wird. Topics bekommen außerdem einen Namen. Hierfür gibt es mehrere Verfahren, entweder man gibt dem Topic als Namen den Titel des Dokumentes, das die größte Ähnlichkeit mit dem Topic selbst besitzt oder man bildet Kombinationen aus den Labeln der relevantesten Konzepte aus dem Fingerabdruck. In beiden Fällen muss die Mehrsprachigkeit berücksichtigt werden, das heißt gegebenenfalls muss der Dokumenten-Titel in eine gewünschte Sprache übersetzt werden, wofür mittlerweile geeignete Übersetzungstools zur Verfügung stehen, oder es müssen die Label aus der gewünschten Sprache ausgewählt werden. Da der thematische Inhalt der Topics wieder durch semantische Fingerabdrücke beschrieben wird, sind damit auch vielfältige Ähnlichkeitssuchen möglich. Dokumente können mit allen Topics verglichen werden (Klassifikation) oder umgekehrt können ausgehend von einem Topic passende Dokumente gesucht werden (themenbasierte Suche). Schließlich können auch Topics untereinander verglichen werden.
Hierarchische Topic-Detection
Der im vorigen Abschnitt zuletzt genannte Punkt ermöglicht eine hierarchische Topic-Detection. Dies verläuft analog zur normalen Topic-Detection, nur dass dabei Cluster von Clustern gebildet werden. Die Ähnlichkeitsermittlung findet auf allen „normalen“, also ziemlich spezifischen, Topics statt und durch angepasste (das heißt kleinere) Schwellwerte werden allgemeinere Themen-Profile definiert, siehe Abbildung 4. Im Prinzip könnte man diesen Schritt beliebig oft wiederholen, mehr als zwei Schritte lohnen sich aber nur für sehr große Datenbestände. Die Namensvergabe ist hier etwas schwieriger, da der Name des ähnlichsten „Sub-Topics“ als Name des „Super-Topics“ hier nicht geeignet ist. Wir greifen deshalb auf das Verfahren mit den Labeln der relevantesten Konzepte zurück.
Inkrementelle Topic-Detection
Da sich der Datenbestand mit der Zeit verändert, müssen auch die definierten Topics angepasst werden. Zwar ist der CDBSCAN-Algorithmus vollständig deterministisch, so dass man denken könnte, dass die gesamte Topic-Detection einfach neu gemacht werden sollte, aber dadurch würden bei geändertem Dokumentenbestand ganz neue Topics entstehen und es gäbe keine kontinuierliche Entwicklung der Topics. Sinnvoller ist es die Topic-Definition inkrementell vorzunehmen und die bestehenden Topics bzw. deren Fingerabdrücke schrittweise anzupassen. Entschieden werden muss auch, ob der Name des Topics ebenfalls angepasst werden soll oder ob es lieber bei dem bisherigen Namen bleiben soll. Notwendig ist auch die Erkennung von neuen Topics und gegebenenfalls gibt es Topics, die entfallen können.
Trendanalyse
Die automatisch erkannten Topics können nun verwendet werden um mittels einer Trendanalyse neu auftretende Themen frühzeitig zu erkennen oder auch unwichtiger werdende Themen zu identifizieren. Hierfür wird für alle Topics eine themenbasierte Ähnlichkeitssuche vorgenommen und die Anzahl der gefundenen Dokumente zum Beispiel anhand des Publikationsdatums in ein zeitliches Raster sortiert. Üblicherweise wird hierbei die Entwicklung der letzten drei Tage überwacht, aber es sind auch andere Vorgehensweisen denkbar. Die so ermittelten Häufigkeiten werden dann einer einfachen linearen Regressionsanalyse [7] unterzogen, siehe Abbildung 4. Die Steigung der ermittelten Ausgleichsgerade stellt eine sehr gute Trendkennzahl dar und kann in weiteren Analyseprozessen verarbeitet werden oder in einem Redaktions-GUI geeignet angegeben werden.
Fazit
Topic Detection und Trendanalyse in einem mehrsprachigen Kontext lassen sich mit der Smart Media Engine der Berliner Condat AG im Redaktionsalltag erfolgreich umsetzen. Das Tool reduziert zeitaufwändige, manuelle Recherchetätigkeiten, und gibt den Mitarbeitern mehr Zeit für ihre eigentliche, kreative Arbeit. Gleichzeitig verschafft es Nachrichtenmachern einen wertvollen Wissensvorsprung, der für exklusive Berichterstattungen genutzt werden kann. Durch die nahtlose Integration in das Newsroom-System OpenMedia können sich Redakteure weiter in ihrer gewohnten Toolwelt bewegen.