新闻 > 

国际标准化组织下深度学习视频编码近期成果速览

引言

2020年最新一代视频编码标准 VVC 定稿之后,国际标准化组织 JVET 工作组开展了基于神经网络视频编码(NNVC)的探索与研究,为下一代视频编码标准的制定做准备。NNVC 的探索竞争尤为激烈,多家知名企业参与其中,包括腾讯、字节跳动、高通、爱立信,诺基亚和 OPPO 等。

腾讯多媒体实验室对 NNVC 的发展做出了重要的贡献,包括标准化技术采纳流程、参考软件开发以及多项基本工具的开发,同时担任了 NNVC 多项重要职务,包括 NNVC 专题组主席、参考软件维护主席、算法描述编辑主席等。在刚刚结束的2023年4月会议中,腾讯多媒体实验室在竞争最激烈的环路滤波器赛道,力压竞争对手,实现了最高的编码性能,所提出的单模型滤波器设计思想被采纳为统一方案。另外,腾讯是目前唯一一个在不同模块(环路滤波和超分)上有重大技术采纳的单位。本文将对腾讯多媒体实验室在近期 JVET 会议的主要贡献作简要介绍。

背景介绍

视频作为当今互联网时代重要的信息载体之一,在互联网数据中具有非常高的占比。海量的视频数据给信息的存储与传输带来了巨大的挑战。因此,使用视频编码技术对海量的视频数据进行压缩具有非常重大的意义。视频编码旨在主观质量相当的情况下,减少视频数据体积或实时传输的码率。视频编码中的环路滤波模块不仅可以有效减少当前重建图像中的失真,还可以为后续的编码图像提高更高质量的参考,进而提高编码效率。此外,视频编码中还可以使用超分技术来提高编码效率,即编码原始图像的低分辨率版本以节省编码比特数,并使用超分技术将低分辨重建图像恢复成高分辨率图像。

在2023年4月 JVET 会议中,为了促进 NNVC 编码标准的发展,JVET 工作组决定合并现有技术搭建统一的基于神经网络的高复杂度环路滤波器。腾讯、字节、高通、爱立信和 OPPO 等多家单位参与了统一滤波器的讨论与竞争。在耗时多日的大会决议过程中,腾讯多媒体实验室不仅成功地推动多项环路滤波器的相关技术被采纳到标准参考软件,还提出了统一滤波器的解决方案,为大会决议提供了有效参考,充分展现了公司的影响力。腾讯多媒体实验室也是唯一一个在不同编码模块上(环路滤波和超分)有重大技术采纳的单位。

基于神经网络的环路滤波器

在2023年4月的 JVET 会议中,多媒体实验提交了提案 JVET-AD0166,提出了一种基于 transformer 和 CNN 相结合的神经网络环路滤波器。如图1所示,在众多滤波器方案中,腾讯多媒体实验室所提出的神经网络环路滤波器取得了最高的平均-15.5%的编码性能。

Image 1
图1 YUV 编码性能对比图

本节将从网络结构、网络训练和推理接口阐述采纳到标准参考软件的技术。

1. 网络结构

JVET-AD0166 中基于神经网络的环路滤波器使用了单模型来同时处理 YUV 视频的亮度分量 Y 和色度分量 UV,即如图2所示,重建图像的亮色度分量(rec_yuv)和预测图像 [1] 的亮色度分量(pred_yuv)均被送入网络中,最终将同时输出亮度分量和色度分量的滤波结果。

Image 2
图2 基于神经网络的环路滤波器的网络结构

此外,在2023年4月 JVET 会议中,腾讯多媒体实验室提交了提案 JVET-AD0379,比字节跳动更早提出了一种统一滤波器的设计方案。如图3所示,所设计的统一滤波器网络结构为 JVET 工作组提供了可靠的参考。由于单模型滤波器在编码性能和模型存储上具有更好的平衡,所提出的单模型的网络设计思想力压字节跳动、高通和爱立信等单位支持的双模型设计思想,成功得到硬件专家的支持,并最终被采纳进统一滤波器。

Image 3
图3 统一滤波器的网络结构

2. 网络训练和推理接口

通过考虑网络训练和测试的一致性,腾讯多媒体实验室提出了迭代训练方法 [2],使得测试过程中的神经网络滤波器更具泛化性。此外,腾讯多媒体实验室所提出的TVD [3] 数据集也得到了标准参考软件的应用。

实验室提出的自适应加权和固定权重的组合策略被应用于融合了传统滤波器的滤波结果和神经网络滤波结果,提升了主观性能。

基于神经网络的自适应超分工具

在2023年1月 JVET 会议中,腾讯多媒体实验室提交了 JVET-AC0196 提案,所设计的基于神经网络的自适应超分工具被采纳。所提出的算法可以在图片组 GOP 的水平上自适应地选择编码分辨率(原始分辨率或四分之一分辨率),并当图像以四分之一分辨率进行编码时使用所设计的神经网络超分滤波器进行图像上采样。相对国际标准组织中最新的编解码软件,所提出的基于神经网络的自适应超分工具能够在主流的4K序列上取得平均5.34%的编码性能。

小结

在下一代视频编码标准的探索和研究过程中,腾讯多媒体实验室提出的基于神经网络的环路滤波器和超分工具等多项技术被采纳到标准软件中。腾讯多媒体实验室也是唯一一个在不同编码模块上有重大技术采纳的单位。腾讯多媒体实验室将持续投入深度学习编前沿探索,包括深度学习编码工作的实用化研究,坚持长期主义,同时保持在国际标准组织中该领域的领先地位。

参考文献

[1] 朱晗,许晓中, 刘杉. “添加 QP 和残差分布信息的深度学习环路滤波工具”, Doc. AVS-M5654, 2020年8月.

[2] L. Wang, X. Xu, S. Liu, “Optimize neural network based in-loop filters through iterative training”, Picture Coding Symposium, 2022.

[3] X. Xu, S. Liu and Z. Li, "A Video Dataset for Learning-based Visual Data Compression and Analysis," IEEE International Conference on Visual Communications and Image Processing, 2021.

腾讯多媒体实验室
/
我们希望使用性能和分析 cookies(“Cookie”)来帮助我们识别您是否是回访者并跟踪网站浏览次数和访问次数。有关我们使用的 Cookie 和您的选项(包括如何更改您的偏好)的更多信息,请参阅我们的 Cookies 策略.