"Dialog Detection": Identifikation von Sprache im Audiosignal

Audio-Postproduktion-Software mit neuen Algorithmen von Fraunhofer IDMT

Research & Development
Audio
Company

Passagen mit und ohne Gesprächsanteile nur anhand des Audio-Levels zu identifizieren, kann für professionelle Tonschaffende eine mühsame Aufgabe sein. Um zu erkennen, ob es sich jeweils um gesprochenes Wort oder lediglich um Hintergrundgeräusche handelt, muss die Audio-Passage beim Editieren angehört werden. In Zusammenarbeit mit dem Fraunhofer-Institut für Digitale Medientechnologie IDMT will die Steinberg Media Technologies GmbH die Arbeit von Profis in den Bereichen Sound-Design, Dialog-Editing sowie Sprachsynchronisation erleichtern. Dazu hat Steinberg im neuesten Update seiner digitalen Audioworkstation Nuendo das Feature "Dialog Detection" integriert.

Bei den neuen Features in Nuendo 12 liegt der Schwerpunkt auf der Aufnahme und dem Editieren von Dialogen. "Damit rücken speziell die Bedürfnisse von Nuendo-Nutzenden in den Fokus, die sich beispielsweise beim Synchronisieren und bei der Erstellung von Voice-Overs verstärkt auf Sprache konzentrieren müssen. Besonders relevant ist dies bei der Erstellung von Inhalten für Streaming-Dienste", sagt Timo Wildenhain, Head of ProAudio bei Steinberg. "Dialog Detection" setzt dabei auf Technologien des Fraunhofer IDMT in Oldenburg. Algorithmen basierend auf maschinellen Lernverfahren (neuronalen Netzen) erkennen unabhängig von Hintergrundgeräuschen Sprachaktivität im Audiosignal. Tonschaffende können die erkannten Passagen anhören und auf Wunsch Anteile ohne Sprache automatisch in unterschiedliche Spuren aufteilen lassen. Das eigentliche Editieren beginnen sie komfortabel und übersichtlich mit einer separierten Dialogspur.

Die im Feature eingesetzte Sprachaktivitätserkennung ("Speech Activity Detection", SAD) des Fraunhofer IDMT in Oldenburg wurde mit einer Vielzahl an unterschiedlichen Daten trainiert, um zuverlässig Sprachaktivität bei vorhandenen Hintergrundgeräuschen zu identifizieren. "Unsere SAD-Algorithmen sind in unterschiedlichen Anwendungen im Einsatz. Als eigenständiges Feature können sie den Workflow von Audio-Profis merklich verbessern. Darüber hinaus dienen sie in weiteren Lösungen des Fraunhofer IDMT als Vorverarbeitung für die hauseigene Sprach- und Sprechererkennung, als Störgeräuschbefreiungsalgorithmen oder Privacy Filter", erklärt Christian Rollwage, Gruppenleiter Audiosignalverbesserung am Institutsteil Hör-, Sprach- und Audiotechnologie HSA. Sei es im Smart Speaker im heimischen Wohnzimmer, bei sprachbasierter Maschinensteuerung in der Produktionshalle oder bei der Sprachdokumentation in der Qualitätssicherung: Die SAD kann eingesetzt werden, damit für die folgenden Verarbeitungsschritte bereits nichtsprachliche Anteile herausgefiltert sind oder umgekehrt, damit Sprache gar nicht erst aufgezeichnet wird und so die Privatsphäre von Nutzerinnen und Nutzern, zum Beispiel im öffentlichen Raum, geschützt ist.

www.idmt.fraunhofer.de/hsa