Mit der neuen kombinierten Gesichts- und Sprecheranalyse erhalten Programmplanerinnen und -planer einen zuverlässigen Überblick darüber, welche Personen wie häufig in Fernsehprogrammen vorkommen. Die Audiovisual Identity Suite wertet hierfür große Datenmengen, also viele Medienbeiträge über viele Wochen hinweg, innerhalb kürzester Zeit aus. Die Ergebnisse der audiovisuellen Erkennung bestimmter Personen werden in einer leicht verständlichen und intuitiv bedienbaren Benutzeroberfläche dargestellt und können für Trendanalysen und Statistiken verwendet werden.
Interessiert man sich für die Medienpräsenz bestimmter Personen im Zeitverlauf, so stellt das Tool in einer so genannten Heatmap dar, wann und wie häufig diese über einen bestimmten Zeitraum auf verschiedenen Fernsehkanälen zu sehen oder zu hören waren. Der Clou dabei: Die Erkennung funktioniert auch dann zuverlässig, wenn die betreffende Person zwar gerade spricht, aber nicht im Bild zu sehen ist. Das ist immer dann interessant, wenn zum Beispiel in Talkshows Reaktionen aus dem Publikum eingefangen werden oder andere Diskussionsteilnehmer gefilmt werden, während auf dem Podium weitergesprochen wird.
Möglich wird dies durch die Kombination von Audio- und Videoanalyseverfahren. In beiden Forschungsdisziplinen verfügt das Institut über langjährige Expertise. Beide Analyseverfahren wurden bereits erfolgreich in verschiedenen Produkten und Lösungen in die Anwendung gebracht.
In der Audiovisual Identity Suite werden beide Verfahren erstmals zu einem crossmodalen Analysewerkzeug kombiniert. "Das erhöht die Aussagekraft und die Qualität der Ergebnisse enorm", erklärt Dr. Uwe Kühhirt, Experte für Videoanalyse am Fraunhofer IDMT und Mitentwickler der Audiovisual Identity Suite.
Für die akustische Identifikation von Personen in Programmen setzt das Institut auf KI-basierte Algorithmen zur Erkennung von Sprechenden und zur Klassifizierung des wahrgenommenen Geschlechts. Darüber hinaus ermöglicht die Sprachqualitätsanalyse die Bewertung ganzer Sendungen oder einzelner Sendungsteile hinsichtlich ihrer akustischen Verständlichkeit.
Für die visuelle Erkennung von Personen in Videos kommt die intelligente Gesichtserkennung zum Einsatz. Dabei werden aus den Videodaten Gesichtsmerkmale wie zum Beispiel das visuell wahrgenommene Geschlecht extrahiert. Kombiniert man dies mit der oben erwähnten akustischen Klassifikation des wahrgenommenen Geschlechts, lassen sich sehr zuverlässige Aussagen darüber treffen, wie oft Männer und wie oft Frauen im Programm zu sehen oder zu hören sind. Diese Erkenntnisse können zum Beispiel bei der Planung einer geschlechtergerechteren Programmgestaltung und Berichterstattung helfen.
Die Audiovisual Identity Suite wird perspektivisch um weitere Analysekomponenten erweitert. Auf der visuellen Seite soll eine Altersschätzung von Personen integriert werden. Die Audioanalyse wird um eine Sprachenerkennung sowie um die Komponenten Speech-to-Text und Schlüsselwortanalyse ergänzt. "Das gibt uns noch mehr Auswertungsmöglichkeiten. Denn durch die Kombination mit der Texttranskription können wir nicht nur Aussagen darüber treffen, wie häufig bestimmte Personen auftreten, sondern auch, zu welchen Themen sie sich äußern", erklärt Christian Rollwage, Experte für Sprechererkennung am Institutsteil Hör-, Sprach- und Audiotechnologie HSA.