2016年,美国一位科技记者James Vlahos,做了一件感动无数人的事。
他在父亲临终前几个月,下定决心要把父亲的声音和教诲永远留在身边。于是非技术背景的James在一个AI项目的帮助下,自学语音合成与机器学习。在父亲的帮助下,他每天录制父亲一到两个小时的声音,共记录了9万多个单词用来训练AI模型。最终完成了由父亲声音构成的,类似siri的语音助手,得以让James时时寄托哀思。
这个故事在感动了全球无数家庭的同时,也让AI开发者与技术人员看到了用AI语音定制化的重要意义。毫无疑问,全球众多家庭都在渴望着类似功能,无论是记录老人的声音,让自己的声音能够更多陪伴孩子成长,还是恋人之间的声音陪伴,家庭,正在成为AI语音技术应用场景的主战场。
这种需求也在不断受到产业界的重视。近来几年,语音合成、声音克隆等技术相继发展,自然语言处理整体能力也得到了突飞猛进的发展。AI语音定制化这件事,也早已不用耗时几个月,用数万条语料进行机器学习训练,而是真正的“飞入寻常百姓家”。
3月初,一直对AI技术大举投入的百度,在小度音箱中上线了语音定制功能。在小度APP中“爸妈讲故事”这个功能场景,用户可以录制自己和家人的语音包。
这是对话式AI硬件中,首次出现用户语音定制能力。当用户可以定制自己的语音包,让智能音箱不断传来自己的声音,众多行业规则似乎都在发生变化。
让我们从语音合成、对话式AI,以及智能语音硬件三者发展的合流中,审视一下进入AI语音定制时代的2020,可能发生的三个改变。
门槛已去:AI语音进入定制化时代
事实上,AI语音定制的能力,一直都处在AI行业与用户的高度期待里。一方面让AI模拟用户声音,关乎家庭、陪伴、记忆等诸多社会情感因素;另一方面熟悉的声音可能触发很多新的应用想象,比如你可能懒得打开音频课,但如果你的爱豆或者女神给你上音频课,你可能都懒得睡觉。
因此,AI语音定制的工程化与商业应用,始终被抱以高度期待。这条技术线索可以说是AI语音硬件,比如智能音箱、智能屏等产品持续发展的奇兵。
而AI语音定制的相关技术,在过去几年间迎来了不断降低门槛、提升应用规模的过程。James Vlahos用了9万多条语料进行机器学习训练,但如今只需要几分钟就可以训练出语义理解和自然语言处理效果远远超过siri的定制化语音模型。
近几年,随着技术的升级,定制用户语音的相关产业探索一直在前进。比如一个名为Revoice的公益项目,希望能够帮助渐冻症患者留住自己的声音;而汽车AI厂商Cerence在去年推出了创建用户声音语音助手的功能;微软的Custom Voice服务,可以一定程度上让用户声音成为小冰的语音。去年,“语音定制功能”开始被应用到地图场景,用户在百度地图APP上录制20句话,就能够生成个人完整语音包。
如今,定制化语音的功能来到了最复杂的AI场景里:对话式AI设备。
在小度语音定制功能中,用户进入小度APP,就可以在“爸妈讲故事”这个功能里录制自己的专属语音包。谈不上多复杂,3-5分钟就可以录好,录制的声音可以播讲大段的故事,并且语气、语调、顿挫感在百度的AI语音能力加持下非常逼真,没有异样感。
这意味着,AI定制语音的能力已经基本不再存在任何用户门槛,我们不用学习复杂的技术,浪费大量时间,忍受一次次的失败。用户将以非常简单的方式,就能够利用智能语音定制来展开实现家庭场景中的应用。语音定制的产业化通道也就此展开。
在另一条轨迹上,我们可以将其看作智能语音助手和对话式AI硬件的整体进化。
从2015年,亚马逊的Ehco诞生起,语音助手就处在用机器音一问一答的基本能力里。用户时常找不到继续说下去的动力。一问一答模式也与真人交互并不相似。
2019年,小度助手实现了全双工免唤醒能力,可以一次唤醒多次交互,终于让多轮对话在硬件中得以实现,聊天开始形似真人。
而AI语音定制的能力,或许可以看作2020年智能语音助手和相关硬件的又一次升级,用户可以借此实现千人千面的AI硬件,开发者有了新的开发基础。连锁发生的产业化影响也能够随之展开。
饭圈&家庭:两个场景的AI硬件或爆发
AI语音定制化带来的第一个改变,就是用户可能会重新开始思考自己如何应用对话式AI硬件,以及为什么购买相关产品。
有了AI语音定制能力后,有两个商业场景的改变是显而易见的。首先在家庭场景中,定制家人声音这一能力其实至关重要。因为家人的声音代表着陪伴、依靠和温暖,这是人之天性,无法在任何时代改变。用父母的声音给孩子讲故事、讲知识,让子女的声音在智能音箱中陪伴着父母,给父母报时间,念新闻。这些温暖的应用,是中国人的普遍需求,也是繁忙都市工作下的必然选择。
今天的情况就是一个很好的例证,疫情推迟了复工,这让很多父母有了更多时间陪伴孩子,从而产生了“疫情下的父母依赖”。但返工开始,父母不得已又将离开孩子怎么办?在智能音箱家庭使用场景下,语音定制功能就给出了一个选项。
另一方面,AI语音定制功能的更大红利还要看饭圈。这几天饭圈的能量之大,让整个社会颇为领教。那么让爱豆的声音不仅仅出现在地图导航,而是时时留存在智能产品中,与自己时时对话,聊天、讲故事、玩游戏——以此产生的购买力和再开发能力,简直不敢细想。
这两个场景在AI语音定制能力下,是最有可能快速呈现爆发的。而以此为基础,一波新的开发者红利即将上线。
泛化定制:AI语音开发者获得新船票
随着AI语音产业的成熟,开发者技术支持的日趋完备,已经有越来越多的声音博主、AI开发者,投身到AI语音生态的大潮中。而随着AI语音定制功能的上线,开发者的基础能力又得到了不小突破,“千人千声”的对话式AI设备不再仅仅是个产业想象。
AI语音开发者,或许很快就可以通过语音定制功能,获得“泛化定制”的全新机会。可以预见,AI语音定制将通过以下几种方式影响AI语音的开发空间与产业价值:
1、技能定制得到飞速发展。用家人的声音定制一个语音技能,甚至定制只有家庭成员、情侣之间、粉丝专属的语音技能,是一个广阔的产业想象力。很多语音技能在有了用户声音这个选项之后,将产生全面改变,可能影响到娱乐、家庭、教育、陪伴等多个场景。
2、生活场景定制成为重头戏。在智能家居、智能手机助手、智能穿戴设备中听到自己亲人、偶像的声音,是一件可以充满各种玩法的事情。开发者将可以借助各种硬件形态,挥洒AI语音定制的想象力。
3、“声音著作权”的无数新玩法。上面说过,AI语音定制能力的出现和普及,将让“高净值声音”成为一种新的版权资本。明星、偶像、公众人物,甚至特定领域网红的声音,将可以通过AI交互的形式普及到各种硬件中,造成内容产业与科技产业的又一个垂直风口。
能够规模化落地的AI语音泛定制应用、硬件,以及专属服务,是将用户、偶像、软件开发者和硬件品牌融合在一起的全新形式,由此激发的购买欲望和平台开发机遇,也许将是2020年的独特风景。
4、AI语音的社会价值与意义被重新估判。从James Vlahos的故事不难看出,AI语音定制能力,包含着深刻隽永的亲情关怀与家庭意义。人与人无法永远陪伴,但对方声音的智能化,却可以将很多重要的时刻与陪伴感放大。AI语音定制化的开发者们,接下来将可能担负起更多关于亲情、社会与陪伴的探索。从技术价值到社会价值,AI语音定制化的影响力也将以此被放大。
AI语音定制化,正在成为对话式AI硬件市场上新的驱动因素。细心观察近三年来的对话式AI硬件以及AI语音市场,就会发现市场的波动式增长,呈现与技术突破紧密契合的关系。在一种硬件形态处于草创阶段的时候,这种因技术而爆发的商业能量是产业常态。
换句话说,对话式AI打开的硬件市场,呈现这样的逻辑关系:技术能力突破代表着更好的用户体验,继而将直接催生市场回馈。在2019年,小度带来全双工免唤醒能力后,AI语音硬件市场一度解封了三足鼎立的形态,展现出独自向前大幅飞跃的局面。而AI语音定制化能力,作为与开发者、技能生态、内容生态联系更紧密的技术突破,显然将持续维护这种技术领先性,带来更多的市场回馈,以至于某种市场质变的临近。
但不管最终是哪个平台获得最后的留场权,对于AI开发者来说,语音定制化能力带来的产业机遇都刚刚开始。千人千面的硬件,千变万化的应用,千方百计的技术突破,是我们最终想在新硬件形态上看到的结果。