盼望着,盼望着,春天的脚步近了,雪容融也终于正式上岗,迎来了自己的主场——2022北京冬残奥会。
本届冬奥会不仅是运动员们的竞技舞台,更是科技公司“秀肌肉”的绝佳舞台。诸多科技亮点之中,大家可能都注意到了,冰墩墩和雪容融有一位共同的“同事”——手语数字人。
2月4日晚开幕的冬奥会上,央视新闻AI手语主播正式上岗,陪伴听障人士见证了一场场精彩绝伦的比赛。即将开幕的冬残奥会,这位手语数字人也义不容辞,将披挂上阵,让听障人士实时感受冰雪运动的魅力。
创造丰厚的冬奥遗产,为国家、主办城市、人民群众带来长期的、积极的收益,也是成功办奥的重要标志之一。在日常生活中,手语数字人能不能继续发光发热,为听障人士提供服务呢?
我们关注到,3月3日,央视新闻AI手语主播的制作者——百度智能云曦,又推出“AI手语平台”,通过分钟级生成手语合成视频、手语主播实时直播等能力,为手语服务的普及难题,提出了科技平台化的新解法。
同时,百度智能云曦灵还发布了“AI手语平台一体机”,让一些需要硬件交互的场景,比如医院、银行、车站等公共场合,插电即可提供手语服务,快速部署无障碍窗口。
平台化和软硬协作的革新,正在让手语数字人走上一条与社会价值长期对接、一同成长的进化之路。
科技巨头们都在积极打造手语数字人,反映出哪些潮水的方向?数字生命与智能技术的温情加速照进现实,这究竟意味着什么?
数字生命觉醒时:手语数字人的能力体系
百度智能云曦灵平台赋予手语数字人哪些特殊能力?我们不妨以人类手语老师的标准来审视一下。
有一种“难”,叫朱广权的手语老师,想要实时且准确地翻译出朱广权的妙语连珠,千挑万选的央视手语老师有时也难免手忙脚乱。而在此前与朱广权的在线pk中,这位由“百度智能云曦灵”打造的首个AI手语主播,面对朱广权不断抛出的超高速顺口溜,立马就能做出反应,表现出流畅、精准的业务能力。
综合来看,手语主播的华丽炫技,以及冬奥会上的扎实服务,来自百度智能云曦灵平台提供的三个方面的基础能力:
1.理解能力。
真实世界中,很容易受到噪音干扰,人类手语老师必须听清、听懂新闻内容,不然翻译出来也可能是错误的,一通比划猛如虎,但无法真正投入使用。
想要听清,需要领先的语音识别能力。百度智能云曦灵平台融合了百度自然语言处理技术,成熟领先的全双工ASR(Automatic Speech Recognition)语音识别模型,近场中文普通话的识别准确率,能够达到98%以上。
轻松搞定各种语音内容,即使段子手朱广权的神级语速也不在话下,这为后续数字人的手语翻译打下了坚实的基础,使得AI手语平台一体机更好地应用于不同场景中。
2.翻译能力。
感知之外,手语老师要分析、归纳重要信息,根据语句整体意思进行精炼和语序调整,将其转换成手语语言。
一些厂商研发的手语数字人直接采用“手势汉语语料”,好处是无需重新标注,节省时间,问题是生硬地按照说话顺序将手语手势连接起来,并不能算是“人类高质量手语”。
举个例子,“我想回家”并不是将这四个汉字依次比划出来,而是按照“家”、“回”、“我想”的顺序来表达。
因此,想要翻得准,手语数字人必须学会自然手语语序。百度智能云曦灵平台就基于“国家手语语法规则”,联合手语语言学专家,特殊教育专家、天津理工大学等,邀请上百位听障学生做数据标注,形成了近千万的高质量训练数据。
有了数据,接下来就是模型设定与训练。基于百度多年积累的神经网络翻译技术,设计了从中文文本到手语符号的翻译方法,打造出了业内首个基于神经网络的精炼度可控手语翻译模型,让手语数字人的翻译可懂度达到85%以上,媲美主流的中英,中日等方向的机器翻译结果。
3.表达能力。
手语中,手势必不可少,还需要表情、口型、动作等肢体语言的配合,帮助听障人士更好地理解。比如疑问句“吃饭了吗“,不仅要做出吃饭的手势,还要配上疑惑的表情,眉头皱起、眼睛睁大。
要让手语数字人声情并茂、手舞足蹈地表达,尤其是3D人像,有着不小的技术难度。一些手语数字人动作过快,有时又存在卡顿不连贯的情况。为了训练手语数字人的“声台形表“,百度智能云曦灵平台也是煞费苦心:
表情上,百度智能云用4D扫描数据,积累了超1万个脸部面4D数据,借助高精数字人“文字到形状的跨模态面部表情生成技术”,能够准确生成微笑、开心笑、wink、吹泡泡、白眼、思考等表情。口型合成准确性达98.5%,a和e这样发音时表情接近的字母,都可以细致的区分。
驱动时,通过个性化TTS,根据输入的文本/语音信息来进行自适应,结合多种预置动作,驱动数字人的唇形、肢体、表情、手势等自动生成。多模态的手语表达,能够传递出更丰富、准确、易于理解的信息。
同时,百度智能云曦灵平台搭载的开放域对话平台PLATO-XL,是百度基于百亿级训练参数、多年搜索及知识图谱积累而训练出来的,被认为是当前最大规模的中英文对话模型。通过它可以快速驱动数字人实现直播、动画等内容,达到多场景下的实时沟通。
纵观手语数字人的能力体系,不难发现,头部科技公司相继推出了自己的手语机器人,除了体现科技的人文关怀之外,还隐藏着技术发展的必然。
必须在算力、数据、算法三方面都有强大的能力,在语音、视觉、NLP、知识图谱等领域都有领先优势,才能让手语数字人真正觉醒在屏幕前、生活中。
百度作为国内AI 技术布局更完整的公司,能最快地实现手语数字人的大规模应用,原因正在于此。
数字生命的平台化复制:手语数字人插上产业之翼
在冬奥会和即将到来的冬残奥会上的大规模应用,几乎代表了现阶段数字虚拟人的最高水平,是典型的数字生命:具备完成复杂目标的能力(通过手语翻译传递赛事信息),以及实时学习进化的能力(收集信息、实时互动、做出回应,而非提前录制)。
正如未来生命研究所的创始人:迈克斯·泰格马克所说,数字生命是一种能够自我复制的信息处理系统,物理结构是其硬件,行为和“算法”是其软件。这决定了,手语数字人必须向软硬协作、规模复制的方向发展。
3月3日,百度智能云曦灵发布AI手语平台和“AI手语平台一体机”,或许正在为手语数字人插上产业腾飞的翅膀。
为什么这么说?手语数字人虽好,却不能低估技术产业化的难度,至少有几座大山横亘在前面:
第一座大山,是效率之谜。
对于新兴的手语数字人领域,制作难度大、周期长、技术门槛高,服务的群体相对较小,很多行业和企业在引入之前都会顾虑,会不会需要大量的人力财力成本,会不会效果不好没人用,思前想后就是等等再说。要让全社会听障人士都享受到技术红利,还是要尊重产业规律,降低新技术的应用门槛,真正让手语数字人的制作“降本增效”。
百度智能云曦灵的手语数字人平台,出现得恰逢其时。“AI手语平台”具备“视频手语合成”“直播手语合成”“文本转手语”“语音转手语”四大功能,可实现普通视频合成为手语视频、实时直播中增加手语画面、文字翻译为手语、语音实时翻译为手语等多种效果。AI手语平台可搭载在各类APP、网站、小程序中,让听障人士也能轻松实现线上社交、娱乐休闲、课程学习等各类需求。
同时,百度智能云曦灵还设置了三大平台,让手语数字人可以被快速、标准化、高效地生产和交付。比如在人设管理平台上,根据不同的场景搭配设置不同的人设,比如银行中引入的手语数字人可以专业、严谨,景区中使用的手语数字人则亲和、活泼等,适应千行百业的需求。
平台化、标准化、体系化的能力,使得AI驱动的2D数字人,生产周期只需要几个小时,3D虚拟偶像一两个星期就能开发出来,轻松飞越效率这座大山。
第二座大山,是体验之困。
大家可能注意到了,在百度智能云曦灵发布 “AI手语平台一体机”之前,几乎所有的手语数字人都是以软件形式存在的。专门打造一款手语数字人硬件,真的有必要吗?
从根本上来说,我们所知的所有生命形式都有着生物“硬件”的载体,有技术人员认为,“生命3.0”阶段的数字生命,不仅要具备设计自身软件的进化能力,还能设计自身硬件。
很多银行、医院等都在引入人形智能机器人,来增加用户的体验感。具体到手语数字人,作为未来在社交、电商、直播、客服、导游等领域的服务载体,企业与听障用户交互的关键入口,如果只能通过软件来互动,显然是不够方便。
但是,开发一个人形手语机器人又涉及到一个相当漫长且复杂的产业链,很容易让企业望而却步。
百度智能云曦灵此次发布的全离线一体机V3以及端云结合一体机P3,搭载了“AI手语平台”的核心功能, AI手语数字人可以像手机、电脑一样被快速、批量生产,到线下生活的各个角落中服务听障人群。
其中本地全离线一体机,在一些网络情况不佳的区域,比如偏远的山村、景区等地,依然能够进行手语翻译、人像渲染等操作,提供文本转手语、语音转手语等服务。
端云结合一体机,则通过云端计算+本地渲染的形式,也能灵活地实现手语服务。
第三座大山,则是进化之难。
衡量一个数字生命的标准之一,就是具备自主学习、自主适应、自我进化的能力,这需要全面的AI能力支撑。目前,整个手语机器人的产业链还没有被完全打通,尽管一些企业打出了“手语数字人“的概念,但只能在部分场合、部分视频中露脸。
推动手语数字人在真实的产业场景之中不断升级,是AI产业化中必不可少的一种能力。在中国的AI科技企业当中,像百度这样具备从底层算力、开发框架到产业解决方案的全栈AI能力的公司,并不多见。
目前看来,百度的全栈AI能力融入到百度智能云曦灵当中,给数字人升级能力带来了无限潜力,也将加速手语数字人这一“新物种“的全场景覆盖。
通过与产业的深度融合,手语数字人也将变得越来越复杂和聪明,进化成为真正的数字生命。
目前,我国有近2780万听障人士,而手语翻译老师只有1万人左右,许多场景中无法快速跟上手语服务,在飞速发展变化的社会中,很容易造成新的不公平。
而百度智能云曦灵的AI手语平台,让手语数字人的规模化复制变得更加可行;“AI手语平台一体机”,让数字人技术带来的体验更加丰富和多元。
数字生命的平台化复制,是社会责任不会变成空谈的前提,意味着商业价值与技术普惠的一次和解,也预示着手语数字人市场的快速打开。
AI产业的无形之变:手语数字人带来的连锁反应
平台化和软硬一体,规模复制的产业落地效率与直观的体验价值,让百度智能云曦灵在手语数字人的竞争中,已经获得了先发优势。
技术无障碍除了让残障群体受益,还将给企业自身和整个产业带来意想不到的收获。手语数字人的普及,换来的是AI受众的扩大和手语服务的延展,会让许多我们习以为常的场景出现明显的扩容与创新,并引发一系列连锁反应。
首先,AI手语解决方案不断复制到各行各业,让听障人士乐于去用,企业和机构乐于引入手语服务,让手语数字人的落地场景会愈加丰富,在公益属性、社交、传播营销等领域的价值将一一显现。
其次,数字人作为公认的虚拟世界入口,带来巨大的商业空间,已经成为互联网科技企业的下一幕竞争焦点。抢占数字人规模化生产的机遇,培养B端市场的信任感与忠诚度,有助于在接下来的市场竞争中占据优势。
更进一步,百度智能云曦灵在技术的领先性和全面性,决定了其有资格参与甚至主导数字人行业标准的建立,将吸引大量开发者和产业链上下游加速汇聚到生态体系内,推动技术不断迭代和应用持续创新,预先探索数字人的商业模式,带动云计算、AIoT等领域的增长,对于中国数字经济的发展有着重要作用。
以前提到智能科技,大家可能更多地关注独角兽、投融资、数字经济等宏大概念,而现在,手语数字人这样的智能新物种,正在给残障群体日常生活中的“小事”带来便利。
从冬奥主播到AI手语平台,百度智能云曦灵向世界证明,只需要打开一个通道、接通一座桥梁,技术红利就可以源源不断地汇聚到那些需要它的人群当中。
许人类一个更美好的未来,这或许是AI故事里,最温暖人心的章节。