QCon|融云「音视频架构实践」技术专场
7 月 31 日到 8 月 1 日,QCon 全球软件开发大会首次落地广州,围绕“数字化”、“云原生”、“国产化”三个关键词展开探讨和分享,并就实时互动技术实践、人工智能前沿应用、Web 3.0 基础设施等热议话题进行深度解析。
QCon 融云技术专场聚焦音视频架构实践,由副董事长兼首席科学家任杰担任出品人,RTC 服务研发中心经理谢旭旦、音视频研发架构师田润军、音频算法工程师沙永涛分别带来“RTC 服务质量可观测保障体系设计”、“RTC 弱网对抗技术分享”、“AI 降噪技术探索与应用”主题分享。、
RTC 服务质量可观测保障体系设计
实时音视频数据从发送端经过采集、前处理、编码、发送,接收端对数据进行解码、后处理、渲染,这是 RTC 的一个典型数据处理过程。
这个过程呈线性排布,由此带来的麻烦是,一旦某一环节出现差错,后续所有环节质量都会受到影响,就像一根“水管”,任何一个地方堵了,都会导致水流不畅通。
而在音视频服务过程中,最常见的是以下问题:
- 影响质量的环节多,场景复杂,问题定位比较困难;
- 缺少评价手段和统一标准,没法衡量效果;
- 开发人员和测试人员对质量的理解差异,导致沟通成本高;
- 传统测试,测试流程长,效率低。
针对这些问题,业内有一些常用的评估指标,以两大类为主:主观指标和客观指标。
主观指标中最具代表性的是 MOS。其优点是准确性高,缺点是实施成本高、可重复性差、无法大批量评估。
所以我们希望用机器代替人工操作,利用数学模型,通过一些评估标准来量化音视频质量。其准确性依赖于评估的数学模型,可重复性高、可大批量评估。
典型客观评估方法主要有两类:全参考和无参考。
无参考比如模糊度、块效应等,优点是只需接收方一方数据;缺点是判断力偏弱,不能定位到系统内外问题,比如最后结果图效果不好,无法判断是源本身不好,还是在处理过程中进了问题。
而全参考比如 PSNR、VMAF 等,具有技术上好操作的优点,可以频繁重复,并且能够精准复现,便于快速定位问题;缺点则是需要双方数据,必须严格比对原图和目标图。
具体到融云的 RTC 服务质量可观测保障体系设计及相关实践结果,欢迎后台回复【质量检测】查看完整课件。
RTC 弱网对抗技术分享
实时互动大潮来袭。RTC 实时音视频技术迅速发展,不断打卡新应用,渗透新场景。
当先进技术为线上场景带来巨大增长的同时,也面临用户越来越高的体验要求,更低延时、更高画质、更加顺畅。
这三个用户体验的影响因素,对应着的也是 RTC 的三大核心指标,即实时性、清晰度、流畅度。
三者之间,往往鱼与熊掌不可兼得。
为了“既要又要”,我们通常需要通过网络传输优化来追求更低延时、更高清晰度和流畅性。
弱网是造成拥塞、丢包、延时抖动等影响用户体验问题的主要因素。弱网对抗技术就是针对这些问题以及其他网络损伤问题的技术解决方案统称。
由于网络环境具有较强复杂性、异构性,上述的弱网问题在不同环境下的严重程度也有很大差异。如何保障用户在复杂网络环境下进行顺畅的沟通,一直是 RTC 领域关注的重点问题。
针对这三大问题的相应解决方案及融云的最佳实践,后台回复【弱网对抗】获取完整课件。
AI 降噪技术探索与应用
降噪技术发展多年,每个阶段都会有一些典型的算法和重要的技术突破。比如早期的线性滤波法、普减法,后来的统计模型算法、子空间算法。
近些年,基于深度学习的降噪算法得到快速发展,也就是AI 降噪算法。主要是基于幅度谱的深度学习算法,还有复数谱的深度学习算法,以及后来的基于时域信号的深度学习算法。
传统算法,是由研究者总结噪音规律来建模,继而实施背景噪音处理,主要包括线性滤波法、谱减法、统计模型算法以及子空间算法。
这些算法很难被估计和处理非平稳噪音。因此,我们需要引入 AI 降噪进一步提升降噪性能。
AI 降噪算法将含噪语音经过特征提取输入到训练好的神经网络,得到去噪后的增强语音。其本质是利用神经网络模型学习语音与噪音各自的特性与区别,从而去除噪音保留语音。
AI 降噪主要研究三个方面。
首先是模型 Model,从最早期的 DNN 网络发展到后来的 RNN 网络,再到后来的 CNN 网络、GAN 网络及近期的 Transformer 等,随深度学习模型的发展而发展。
然后是训练目标 Training Objective,总的来说分为两大类:Mask 类和 Mapping 类。
最后是损失函数 Loss Function。
在社交产品花样繁多、玩法创新的当下,融云 IM 即时通讯不仅拥有强大的历史积累优势,同时在新社交形态频出的当下依然引流行业,永葆创新力和生命力。点击下方链接⬇️,快来体验吧~