Lebenslange Erfahrung ermöglicht es uns, Schallwellen nicht einfach zu hören, sondern Inhalte zu erkennen, einzuordnen und selektiv wahrzunehmen; diese meist unbewusste Leistung unseres Gehirns befähigt uns, auditiv zu fokussieren und uns in komplexen Geräuschumgebungen zurechtzufinden. Wir können verschiedene Stimmen und Nebengeräusche auseinanderhalten, beispielsweise in einem Video-Call die Verkehrsgeräusche bei unseren Kollegen ausblenden, oder können uns vorstellen, wie sich die Stimme unseres Gegenübers anhören würde, wenn sie auf einer Aufnahme oder im Online-Meeting nicht verzerrt wäre. Im Alltag hilft uns der berühmte Cocktailparty-Effekt, der die Fähigkeit des menschlichen Gehörsinns bezeichnet, sich bei Anwesenheit mehrerer Stimmen sowie Nebengeräuschen auf eine Unterhaltung zu fokussieren.
Bisherige Software- oder Hardware-Tools zur Audio-Bearbeitung, die meist auf digitaler Signalverarbeitung beruhen, verfügen nicht über solche Möglichkeiten und haben eben kein Verständnis für Kontext und Inhalt. Algorithmen auf Basis von künstlicher Intelligenz aber können diese Fähigkeit erlernen, sofern sie entsprechend trainiert werden. Hiermit eröffnen sich komplett neue Möglichkeiten für die Klassifikation, die Verbesserung und auch die Modifikation von Audio- und Sprachsignalen.
Verbesserung der Sprachqualität mit KI
KI-Methoden unterscheiden sich dabei grundsätzlich von Ansätzen aus der digitalen Signalverarbeitung. Das Prinzip besteht darin, eine komplexe (Audio-)Bearbeitungsfunktion in Form eines KI-Modells (genauer: als neuronales Netz) mit Hilfe großer Datenmengen zu trainieren. Im Bereich der Sprachverbesserung und -restauration, den wir in diesem Artikel etwas genauer beleuchten möchten, wird dabei ein spezielles KI-Modell angelernt, um verschiedene Arten von Störungen aus dem Audiosignal zu entfernen oder sogar Teile des Signals und Frequenzspektrums wiederherzustellen.
Um eine Vorstellung vom Umfang des Trainings zu geben: dem KI-Modell werden in kurzer Zeit (der Trainingsprozess dauert meist einige Tage) mehrere Tausend Stunden Audiomaterial in diversen Sprachen, Akzenten, und von verschiedensten Sprecherinnen oder Sprechern gezeigt, die dazu auch noch mit unterschiedlichen Arten von Nebengeräuschen und Störungen angereichert sind. Hochleistungsfähige Computer trainieren das KI-Modell, das am Ende über die gewünschte Erfahrung oder Kontext-Sensitivität verfügt.
Es geht dabei um Störungen, die auf der analogen und digitalen Audio-Übertragungsstrecke von Sprecher zu Hörer entstehen, zum Beispiel durch Nebengeräusche, Raumresonanzen oder Hall, Mikrofone mit limitierter Bandbreite oder Eigenrauschen, Übersteuern, Down-Sampling, Paket-Loss, Datenkompression durch Audiocodecs und vielem mehr. Das KI-Modell wird in diesem Fall durch Datenpaare von Sprachaudiosignalen mit den genannten Störungen und hochqualitativen Aufnahmen trainiert, wodurch es eine Verbesserung von minder- zu hochwertigem Sprachaudiosignal lernt.
Im Trainingsprozess wird dem KI-Modell somit die Lernerfahrung geboten, die für die gewünschte Bearbeitungsfunktion gebraucht wird – durchaus vergleichbar mit der menschlichen Erfahrung, die wir über Jahre mit unseren Höreindrücken sammeln, allerdings auf eine einzelne Anwendung bezogen. Denn hier unterscheidet sich das KI-Modell von der menschlichen Audio-Expertise; während der Mensch abhängig von seiner Hörerfahrung eine Reihe von verschiedenen Aufgaben im Audioumfeld beherrscht, kann die KI vor allem eine einzige sehr spezielle Aufgabe meistern, dafür jedoch mit sehr hoher Geschwindigkeit, Ausdauer und Präzision.

Abbildung 1 zeigt eine Spektrogrammdarstellung (Zeit-Frequenz-Diagramm) von drei verschiedenen Audiosignalen mit den Störungen Hintergrundgeräusche, Datenkompression und Raumresonanzen (Spektrogramm 1–3) sowie dem verbesserten Audiosignal nach der Bearbeitung durch das KI-Modell (Spektrogramm 4). Durch die Verbesserung können sowohl fehlende
(Höhen)-Frequenzen des Audiosignals wiederhergestellt als auch unerwünschte Raumresonanzen bzw. Hall und Hintergrundgeräusche entfernt werden.
Anwendungsmöglichkeiten der Sprachverbesserungs-KI
Nach dem Trainingsprozess kann das KI-Modell in Echtzeit eingesetzt und in vielerlei Software- und Hardwareanwendungen integriert werden. Die Möglichkeiten dieser Technologie haben das Potential, die Sprachsignalverarbeitung zu revolutionieren und den Weg zu neuartigen und vorher undenkbaren Anwendungen zu ebnen:
- selektives Hören mit (Noise-Cancelling-)Kopfhörern oder Hörgeräten vor allem in sehr halligen oder lärmbelasteten Umgebungen
- die Aufnahme und Nachbearbeitung von Interviews, Beiträgen, Lehrinhalten, Videotutorials oder Podcasts, die unter widrigen Umständen aufgenommen wurden (z. B. der Live-Reporter im Einsatz oder bei Amateur-Aufnahmen ohne professionelles Audioequipment)
- die Verbesserung der Sprachqualität und -verständlichkeit in der Echtzeitkommunikation (z. B. am Telefon, in Online-Meetings oder auch in der kritischen Kommunikation bei Einsatzkräften)
- die Bearbeitung und Restauration von (historischem) Audio- und Videomaterial bis hin zur Audioforensik
- die Möglichkeit, an unterschiedlichen Endgeräten wie Smartphone, Laptop oder TV das eigene Sprachsignal personalisiert zu verbessern
Die Entwicklung von Sprachverbesserungsmodellen auf Basis von Künstlicher Intelligenz hat sich das Berliner Startup ai|coustics zur Aufgabe gemacht. In einem aktuellen Projekt integriert ai|coustics diese KI-Modelle in die TV-Software der Berliner Firma Mimi Hearing Technologies. Diese Software ermöglicht es dem Endkunden, sowohl das Audiosignal auf das jeweilige Hörvermögen des Nutzers mit Hilfe eines digitalen Hörtests anzupassen als auch die Sprachlautstärke individuell vom Rest der TV-Lautstärke für jeglichen Inhalt anzupassen, um die Sprachverständlichkeit zu erhöhen - eine Funktion, die vor allem bei schwer verständlichen Dialogen oder aber für Menschen mit eingeschränktem Hörvermögen sehr hilfreich ist. Auf der Webpräsenz von ai|coustics stehen diverse Beispiele zur Verfügung, die die KI-Sprachverbesserungstechnologie veranschaulichen.