Auf der NAB in Las Vegas stellte das Fraunhofer Heinrich-Hertz-Institut HHI aktuelle Innovationen aus den Bereichen Bilderfassung, Videocodierung und Live-Streaming vor, die ein breites Spektrum an Anwendungen von klassischem Fernsehen über Internetvideo bis hin zur Virtual und Augmented Reality erkennen lassen. Dabei wurde der Öffentlichkeit erstmals der technische Vorschlag für den Videocodierstandard der nächsten Generation sowie ein Demonstrator für durchgängiges Live-Video-Streaming mit einer Auflösung von 10K x 4K für Virtual Reality vorgestellt. Außerdem wurden aktuelle Entwicklungen von 3D Human Body Reconstruction für Virtual und Augmented Reality gezeigt.
Innovative Videocodierungstechnologie für den HEVC-Nachfolger
Komprimierte Videodaten nehmen schneller zu als jemals zuvor. Bereits heute bilden sie den mit Abstandhöchsten Anteil von Bits im Internet und im mobilen Datenverkehr. Dies veranschaulicht den Bedarf nach noch effizienterer Komprimierung über den aktuellen High Efficiency Video Coding Standard (HEVC) hinaus. Um diese anspruchsvolle Herausforderung zu bewältigen, haben die ITU-T Video Coding Expert Group (VCEG) und die ISO/IEC Moving Pictures Expert Group (MPEG) bereits 2015 mit der Zusammenarbeit in dem Joint VideoExperts Team (JVET) begonnen.
Aufbauend auf HEVC-Technologie wurden von JVET über die letzten zwei Jahre hinweg schrittweise neue Technologien in ein Joint Exploration Codec Model (JEM) integriert. Mitte letzten Jahres konnte schließlich gezeigt werden, dass das JEM eine mittlere objektive Bitratenreduktion von 30 Prozent gegenüber der Referenz-Implementierung von HEVC erreicht. Damit war der Nachweiser bracht, dass es sich lohnt, mit der Arbeit an dem HEVC-Nachfolger zu beginnen. Im Oktober letzten Jahres hat das JVET daher offiziell dazu aufgerufen, Vorschläge für Videocodierungstechnologien zur HEVC-Nachfolge einzureichen. Das Fraunhofer HHI hat auf diesen Aufruf reagiert und innovative Videocodierungstechnologie vorgeschlagen. Die Finalisierung des neuen Standards ist für das Jahr 2020 geplant.
Auf der NAB präsentierte das Fraunhofer HHI seinen Codec, der dem JVET als Videocodierungstechnologie der nächsten Generation vorgeschlagen wurde, erstmals der Öffentlichkeit. Bei der Präsentation waren signifikante Effizienzsteigerungen in der Komprimierung im Vergleich zu HEVC für ein breites Spektrum an Videoinhalten von High Definition (HD) bis hin zu High Dynamic Range Ultra-HD erkennbar.
Live-Streaming von ultra-hochauflösendem 360 Grad Video
Das Streaming von qualitativ hochwertigen 360-GradVideos für Virtual Reality (VR360 Video) benötigt durchdie hohen Auflösungen von bis zu 10K x 4K bisher viel Bandbreite. Darüber hinaus überfordert derartig hochauflösendes VR360 Video auf der Empfangsseite die Fähigkeiten der meisten Endgeräte, z. B. den Decoder einer Smartphone-basierten VR-Brille. HEVC Tile-basiertes Streaming löst diese Probleme, indem das Video in einzelne Kacheln (engl. Tiles) zerlegt wird. Jedes Tile wird anschließend in der ursprünglichen High-Definition und einer zusätzlichen Low-Definition Auflösung mit HEVC codiert. Der neue MPEG-OMAF-Standard erlaubtes, die einzelnen HEVC-Tile-Ströme einem Empfänger so anzubieten, dass letztlich die hochauflösenden Tiles für das Sichtfeld des Benutzers und die niedrigauflösenden Tiles für die Bereiche außerhalb des Blickfeldes übertragen werden. Am Endgerät, z. B. einer VR-Brille oder einem TV-Gerät, werden die empfangenen Tiles zu einem HEVC-kompatiblen Videostrom zusammengefasst und können mit jedem 4K-fähigen HEVC-Decoder decodiert werden.
Das Fraunhofer HHI präsentierte auf der NAB den weltweit ersten standardkonformen Demonstrator für durchgängiges Live-Video-Streaming von VR360-Videos mit einer Auflösung von 10K. Die gezeigte Live-Kette beinhaltet VR360-Video-Aufnahme und Live-Rendering von der Omnicam-360 mit einer Auflösungvon 10K x 4K, HEVC Tile-basiertes Live-Encoding mit dem HEVC-Encoder des Fraunhofer HHI, Paketierung der Videoströme mit dem neuen MPEG-OMAF viewport-dependent Medienprofil sowie die Übertragung und Wiedergabe auf neueste VR-Brillen und TV-Bildschirmen. Das Bild (oben) illustriert die vollständige Live-Kette mit den folgenden Schlüsselkomponenten:
Capturing: Die OmniCam-360 des Fraunhofer HHIist ein System zur Echtzeit-Aufnahme von hochauflösendenVR360-Videos mit einer deutlich höheren Auflösung als 4K. Mit der Real-Time Stitching Engine (RTSE) werden die zehn Einzelkamera-Segmente nahtlos und ohne Artefakte zu einem hochauflösenden VR360 Video zusammengefügt. Dieses kann ohne Verzögerung auf VR-Brillen übertragen werden, sodass der Zuschauer direkt in das Panoramavideo eintauchen kann.
Encoding: Die neueste Version des Software-basierten Live-HEVC-Encoders (Fraunhofer HHI) integriert HEVC Tiles für die effiziente Codierung und Übertragung von VR360-Video. Vor der Encodierung wird das Video der Omnicam-360 in Kacheln zerlegt und die einzelnen Kacheln werden jeweils separat codiert.
Streaming: Die codierten HEVC Tile-Ströme werden mit dem neuen MPEG-OMAF Viewport-Dependent MediaProfile paketiert und mit MPEG-DASH bereitgestellt. Durch die Verwendung von HEVC Tiles und dem MPEGOMAF Format, können Empfangsgeräte, wie zum Beispiel VR-Brillen oder Fernsehgeräte, die passenden HEVC Tiles mit der optimalen Auflösung für das Gerät herunterladen. Im Blickfeld des Nutzers ist die Auflösung hoch, außerhalb des Blickfelds ist sie niedrig. Mit der Kombination von MPEG-OMAF und HEVC Tiles existiert nun ein internationaler Standard zur Verbreitung von hochauflösenden VR360-Videos auf existierende mobile Endgeräte unter Verwendung der integrierten Videodecoder.
3D Human Body Reconstruction
Das Fraunhofer HHI hat ein neuartiges und integriertes 360-Grad-Multi-Kamera-Erfassungs- und Beleuchtungssystem zur Erstellung von hochrealistischen volumetrischen Videos von sich bewegenden Personen entwickelt. Ein Set von 16 Stereokameras erzeugt 3D-Informationen aus allen Blickwinkeln um eine Person herum. Diese 3D-Informationen werden dann in eine konsistente, natürliche und dynamische 3D-Darstellung der Person umgewandelt. Die automatisch berechneten Sequenzen können in VR- und AR-Anwendungen integriert werden. Das Kamera-Erfassungssystem unterstützt diffuses Licht aus jeglicher Richtung und bietet somit bestmögliche Voraussetzungen für die Nachbeleuchtung der dynamischen 3D-Modelle in der darauffolgenden Produktionsphase desVR-Erlebnisses. Im Gegensatz zur klassischen Animation von virtuellen Charakteren werden dabei kritische Bewegungen wie Gesichtsausdrücke oder zeitlich veränderlicher Faltenwurf bei Kleidung visuell erfasst und mit hoher Detailgenauigkeit rekonstruiert. Auf diese Weise bleiben natürliche Gestik und Mimik der aufgenommenen Personen erhalten.