天极大咖秀

登录 | 申请注册

制造“空间魔术”:为未来取暖的腾讯多媒体实验室

脑极体 2020-01-14 阅读: 8,194 次

对80、90后包括00后来说,人生中很多“见证奇迹的时刻”,都是与腾讯旗下一款款国民级产品共同度过的。比如第一次向千里之外的网友发出那句“你好吗”,感受到了天涯若比邻的真正含义;又像是第一次用微视拍一条小视频,看到贴图与自己的脸庞完美贴合,体会到数字世界与现实世界是怎样连接的奇妙。

技术之于现实世界魔术一般的惊人改变,很多时候都是这样,以一款产品为契机,去改变一个用户、一个群体乃至一代人的生活。

而魔术制造者从不休息。2019年12月25日,云视频会议产品“腾讯会议”正式发布,在背后为其提供支持的便是神秘的腾讯多媒体实验室。

今天我们不妨从“腾讯会议”的魔术出发,去探寻其背后的魔术工厂。

远程会议:移动办公的最大短板

说起远程会议,估计我们的各位“社畜”读者已经非常熟悉了。在分布式办公、移动办公非常普遍的今天,随时打开微信群语音交流工作,或是开启QQ群视频来一场远程会议,都是很普遍的事。

但远程会议的体验,过去是大家有目共睹的差——通话延迟十分常见,更让人烦恼的是如果谁所处的环境有噪声,便会影响所有人的体验。尤其很多笔记本电脑的收音设备都距离键盘很近,在做会议记录时,往往需要暂时关闭麦克风才能保持不打扰他人。像挪动水杯、一两声咳嗽这样在面对面会议中很常见情况,在远程通话中都会变成干扰会议的噪音。更别提视频会议时,直面摄像头的尴尬了。

而这种情况并非无法解决。很多软硬件厂商也会选择用降噪算法、压缩算法等方式来优化网络通话体验。但在会议场景中,却很难找到相对理想的统一解决方案。尤其从键盘打字这种近音干扰噪音如何优化,到多人通话的低时延保持,再到视频流与音频流结合的优化,往往都是移动会议场景才会面对问题。如果没有针对性的解决措施,用户很难找到替代方案。

而腾讯会议这款产品,就是针对这一场景的惊人“空间魔术”。

空间魔术:腾讯多媒体实验室如何把同事“变”到你身边?

腾讯会议的魔术可以被分为四个部分:音画、联通、评估与网络。

在音画方面,腾讯多媒体实验室不仅提供了视频美颜算法,还特地收录了车站噪声、风雨噪声等常见的环境噪声,以及咳嗽声、键盘声、放水杯声等常见的会议噪声。通过定点降噪处理,剥离噪音还原清晰人声。同时腾讯多媒体实验室还打通了VoIP、PSTN等多种语音通话技术,在尽可能广泛的带宽和采样率中应用音频超分算法,通过技术处理提升语音品质。不仅如此,多媒体实验室还推出了真实网络场景的语音质量运维和保障方案。在提供良好的通话效果之外,也通过这一方案帮助用户更好地对杂音、噪音进行定位,为通话效果提供保障。

在音画能力和联通能力背后,重要的支撑力就是评估能力。大多数时候远程会议通话的清晰与否,都只能由用户自己主观判断。这对会议通话的产业化发展是非常不利的。而腾讯多媒体实验室则拥有专业的音视频实验室和测试设备,利用上百个符合ITU/3GPP/AVS等国内外标准的指标对通话质量进行评估。多媒体实验室自己也建立了大规模音视频主观质量数据库,在此基础之上研发了可以部署到业务线中的评估算法。这样一来不仅在研发时可以有衡量标准,也可以监控用户的体验质量。最后,针对多方通话可能面对的各方网络连接状态不同的情况,腾讯多媒体实验室还应用了智能网络探测算法,覆盖多种网络类型,在复杂的网络环境之下提供优质的通话服务。

除此之外,腾讯会议还提供一键录音、云端加密存储等功能,让产品形态更加完整,囊括会议进行和会议记录保存的整个周期。

如此一来,即使身处嘈杂的街边,用户也能享受到如同身处封闭会议间式的通话体验。科技就如同变魔术一般,让身处天涯海角的人们在同一“空间”内无碍沟通。

魔术师的进阶之路

从反复出现的名字就能看到,在空间魔术背后提供动能的“魔术师”,就是腾讯多媒体实验室。虽然这一名字较为新鲜,但腾讯多媒体实验室的魔术师进阶之路,却从多年前就开始了。

想想开头提到的,很多人小时候第一次“见证奇迹的时刻”就是通过QQ与远方的亲人朋友聊天。但很快这种沟通模式就从文字进化成了语音和视频,也就是说,从很久以前,腾讯就已经在处理语音视频会话的技术问题了。

到了2011年左右,当移动端产品逐渐普及,QQ语音通话这一体验和电话通话十分接近的功能迎来了更广阔的需求。于是QQ成立了音视频中心,开始着手解决语音视频功能移动化的问题。尤其是弱网的适应性、以及移动终端的丰富类型,都是在提供优质影音服务之前,必须要解决的问题。

从这一时刻起,腾讯多媒体实验室的技术基地开始加速累积。但也正因一开始为解决QQ产品需求而生,使得腾讯多媒体实验室的技术与QQ业务深度耦合。但到了2014年,随着硬件能力的提升和普及,语音视频服务开始出现在更多的产品之中——K歌、直播、游戏……尤其像直播、K歌等源自模式创新且注重运营的产品,往往都是业务比技术优化更先上马。此时这些产品所向往的,正是已经在应用场景取得成果并且能够尽快与自身业务场景结合的技术。腾讯自己也通过布局投资和成立新业务开始涉足这些领域,此时急需的,是技术与产品之间的解耦,完善SDK使技术可以复用,在更广泛的空间中发挥价值。

于是在2016年腾讯音视频实验室正式独立,最终成长为今天我们所看到的腾讯多媒体实验室。从最初的成员数只有个位数,到现在全球超过100多人的团队,强大的人才储备结合接近二十年的累积,还有无数次来自真实场景的技术炼金,一切都为这位魔术师累积了充足的工具箱。

从魔术师,到制造魔术的工厂

从腾讯会议这一款产品中,我们也能窥见一二。

除了能够提供声音降噪、音频超分等语音方面的算法之外,在腾讯会议这款产品中还能见到腾讯多媒体实验室强大的编解码能力。

例如在远程会议常见的屏幕分享场景中,常常会出现画面卡顿、文字等细节内容模糊的情况。腾讯多媒体实验室针对屏幕分享场景做了大量优化。在编码方面推出了专门针对屏幕内容的屏幕内容编码器TSE,并在其中加入屏幕内容编码工具,以提升编码效率。至于文字模糊问题,腾讯多媒体实验室则采用了YUV444编码,很好地解决了因为色度分量下采样导致的质量损失。

在实时音视频能力上,腾讯实验室除了有丰富的场景经验外,还对于业界先进的学术成果保持持续追踪,就像在拥塞控制这一常见需求上,腾讯实验室就调研了各种学术界和业界最新的拥塞控制算法,结合自身累积的场景经验,提出了新的实时拥塞控制算法,在不同网络场景下都能迅速给出可靠的带宽预测,以便运营方即时做出各种准备。

不仅如此,腾讯多媒体实验室还在音视频质量评估、互动沉浸式媒体方面有着强大的累积。能够实现端到端的音视频内容质量评估的客观音视频质量评估算法,以及全新的互动式媒体交互手段,都是腾讯多媒体实验室已经开始向产业世界所输出的能力。

魔术师的帽子里,有抽不尽的彩带、飞翔的白鸽和跳跃的兔子。一切都是为让整个世界增添更多魔法色彩而服务。但一位魔术师,所面对往往只是一群人、一个剧场、一条街道。

在这里,我们就可以重新审视腾讯多媒体实验室的布局与筹划。

腾讯强大的产品基因,以及优图、AI Lab、安全实验室等其他部门提供的丰富技术能力,最后加上腾讯云这一输出口,可以让腾讯多媒体实验室的技术拥有更妥帖的落地能力。目前除了在腾讯会议中外,全民K歌、斗鱼直播、NOW直播等产品中,也能见到腾讯多媒体实验室所释放的“空间魔术”。在接受采访时,腾讯多媒体实验室相关负责人也表示,未来腾讯多媒体实验室的技术,将会尽可能地开放给社会,让更多产业参与者能够在此基础之上优化自身产品。

这样看来,与其说腾讯多媒体实验室是某一项产品背后的魔术师,不如说这是一座“魔术工厂”,不仅用一只帽子里的兔子惊艳他人,而是源源不断批量生产“魔法”,让世界与状态理想接轨——让更流畅无卡顿的直播,拉近陌生人之间的距离。或是一首无缝衔接的远程合唱,让远在天边的家人也能感受到一起K歌的快乐。

对于成长于互联网和公寓楼中的千禧一代来说,迁徙、分离、孤独似乎成了他们生活的常态。但一款能让他们随时联系到家人朋友的通讯软件,一种能让他们相隔千里也有对坐而谈感受的技术,几乎是生活的必需品。用技术消弭物理空间的阻隔,是这场空间魔术的最大魅力,也是腾讯一直在做的。而这一魔术显然不会仅仅被腾讯拥有,而是通过云端撒向世界,如同一场温暖的雪,为即将到来的未来取暖。

脑极体
从技术协同到产业革命,从智能密钥到已知尽头

特别声明:文章版权归原作者所有,文章内容为作者个人观点,不代表大咖秀专栏的立场,转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)