如何实现“数字人自由”,颠覆内容生产行业?一是通过标准化、平台化,吸引更多用户、企业、行业拥有数字人;二是基于平台打造的生态链服务,降低数字人高门槛、高投入。
作者|杨 铭
编辑|刘珊珊
1305年,元代画坛宗师黄公望以富春江山水为背景,创造的旷世名作《富春山居图》,誉为“中国十大传世名画”之一。
此画在民间流传甚久,清代顺治年间遭火焚,从此断为长短两卷。前段现收藏于浙江省博物馆,较长后段现藏台北故宫博物院。一幅名画,就这样遗憾断离失散数百年。
AI技术迭代飞跃,让旷世名作“合璧”,再现江南意象成为可能——2022百度世界大会现场,百度利用文心大模型的AIGC能力一秒让《富春山居图》“重生”后,600年前的富春山水进入全国观众眼帘。
与其他习以为常的老照片、老电影、演唱会等AI修复术不同,如果用户在百度App搜索“富春山居图”,每个人都可以根据自己想法“虚拟补全”,创作属于自己的《富春山居图》。
站在技术发展角度,人人都能补全自己心中的《富春山居图》,正是下一代互联网Web3.0最好落地探索——兼具去中心化和交互性理念的Web3.0,能让用户共建、共治的同时分享平台价值。
Web3.0也称Web3,是最近两年加密货币、元宇宙浪潮下共同推动的热门词汇,被公认为互联网下一个时代。资本、互联网企业扎堆进入下,Web3何时能现实快速落地,一直备受业界追问。
答案呼之欲出。从本届百度世界大会来看,除了AI修复旷世名作,一系列AI数字人不同场景落地应用案例,都是基于大众对Web3、数字人自由的未来生活想象图景。
无论是Web概念从祛魅到快速落地,还是数字人内容产业迭代升级,都离不开AIGC赋予的强大生产力。“未来十年,AIGC将颠覆现有内容生产模式。”百度创始人、董事长兼首席执行官李彦宏说。
“今天起得太早了,又累又困,我想点杯咖啡呀?”当央视主持人撒贝宁用“十级”粤语点咖啡,度晓晓能秒懂下单吗?
度晓晓是目前大火的百度AI数字人,此前她与龚俊数字人联合演唱的《每分 每秒 每天》歌曲MV刷屏全网。后来,她又在各种场合表现出惊人的写作、绘画、采访等等“天赋”。
和演唱、写作、绘画相比,度晓晓此次挑战难度翻倍——粤语本就晦涩难懂,撒贝宁个性化提问又极其刁钻,她必须“听到”撒贝宁的话,并快速“理解”字句,实时转换成手语“动作”,并在App上直接点单。
这意味着相比其他数字人,度晓晓需要有更高强度的“大脑”运转,接近真人的情感理解,才能完成流程复杂的工作需求。
毋庸置疑,数字人度晓晓能否完成挑战,取决于她在AI技术上的迭代速度和“学习能力”。
数字人最早可追溯到2007年,以语音合成程序为基础开发的音源库“初音未来”。受限于技术,此后数字人多以二次元形象出现,直到2016年人工智能“绊爱”,才让虚拟主播热潮席卷全球。2021年元宇宙概念大火后,数字人更是吸引无数企业聚焦、资本追逐。
Web3浪潮涌动,数字人被赋予更多意义,从Web2世界里“工具性赋能”辅助角色,跃升为Web3世界不可或缺的基础设施——数字“原住民”。
因此,国内外互联网大厂探索Web3,往往通过数字人“卡位”Web3的试验场和前哨阵地。数字人的市场价值也随之被持续抬高,IDC报告显示,中国AI数字人市场规模呈现高速增长趋势,预计到2026年将达102.4亿元人民币。
想赢得“卡位战”胜利并不容易。技术层面看,大多数字人仅能进行简单决策——大多依靠“2D或3D模型+实时动作捕捉+声优配音”模式,无法实现智能化交互,在业界属于2.0阶段,难以顺利实现撒贝宁的“十级粤语”点咖啡挑战。
作为一种继UGC、PGC之后全新的内容生产方式,不断进化的AIGC——顾名思义,即人工智能自动生成内容,成为业界解题思路。
AIGC并非新概念,近年来很多AI虚拟数字人用到了AIGC能力。2015年,国外曾出现两拨基于单点技术把产品迅速做火的AIGC案例,但受限于技术和成本,大多未能推广开来。
行业对AIGC能力的要求,一直在升级之中。最早AIGC仅需要以假乱真,通过既定图片或语音生成风格一致内容,但在Web3时代,数字人用到AIGC,除了基本的近真人需求,还要具有超强的创造力,像人一样学习沟通和工作。
为什么数字人对AIGC能力要求越来越高?
“‘技术+应用+发展’三位一体,正在持续提升数字人产业‘天花板’。”市场调研机构IDC就指出,PGC、UGC这样的生产模式,已不适应数字人本身的技术驱动和需求牵引。
从产品技术趋势看,未来数字人将由AI驱动内容生成,多模态AI技术是核心;交互会越来越智能;形象越来越逼真,由拟人到类人到同人,只有AIGC才能实现。
行业应用趋势看,未来几年人类与数字人开始并存;从产业落地趋势看,出行、产业、生活等千行百业正在加速向数字化转型和智能升级——这意味着,对AIGC能力的需求,并不局限在数字人行业,而是应用于各行各业。
仅就百度世界大会而言,如今百度AIGC能力输出已经可以达到近真人,甚至超越人类水平。
度晓晓能秒懂完成撒贝宁的“刁钻提问”,依靠的是不断进化的AIGC能力——不断汲取海量数据过程中,度晓晓的“自主能力”呈指数级增长,不仅能准确捕捉并判断用户搜索及服务类需求,和用户互动交流更为生动有趣。甚至,她还会反问用户意想不到的问题。
这种有逻辑、有个性的交互、反馈,是度晓晓采用AIGC能力后,与其他数字人的最大不同。
《富春山居图》山水最终“合璧”,背后核心技术也来自AIGC的“自主”修复能力——尽管原画被焚烧部分后人已无法知晓,但在黄公望纪念馆负责人毛传镔看来,“与现存真迹风格一致,光线风格统一,山水脉络和谐,不仅符合原画审美特点,视觉上还同样具有观赏价值”。
真假难辨表现能力输出外,AIGC更重要的是提升内容生产效率,让数字人的落地应用领域越来越广泛、越来越深。
目前,度晓晓已成百度搜索能力重要进化。用户直接在百度App搜索“你好”,即可召唤度晓晓,通过“问一问”4万多名答主快速匹配专业回答,连接科技到用户的最后一公里,进入“人均一个数字人”时代。
另一百度AI数字人希加加,同样会作画、写诗、作曲、说多国语言、还能实时直播。7月21日的大会直播中,她还和撒贝宁搭档,担当AI策划官兼主持人,同时在现场用几十秒完成绘画。
生产效率上,AIGC提升明显。比如,1秒让国宝级名画完美合璧,度晓晓1秒写1篇作文,希加加直播中几秒画一幅画——与人类生产效率相比,这是指数级的提升。
这是李彦宏认为未来十年,AIGC将颠覆现有内容生产模式的重要原因。“可以实现以十分之一的成本,以百倍千倍的生产速度,去生成AI原创内容。”
而AIGC自主学习能力,在李彦宏看来也会创造出有独特价值和独立视角的内容。
的确如此,在AI创作、AI作画、AI作曲、AI剪辑等内容创作领域,外界直观感受到的数字人的生产能力,早已远远超过一般人类。而AI主播、AI创意、AI智能新闻播报等,也在进入应用场景深化之际。
这些都在助推AIGC的进一步进化。根据李彦宏最新判断,AIGC将走过“助手”(辅助人类内容生产)、“协作”(虚实人形态出现,人机共生)、“原创”(AIGC独立完成内容创作)三个发展阶段。
不断进化的度晓晓、希加加们,很大程度上已经表明,百度AIGC能力正从“协作”加速跨入“原创”阶段,助推数字人进入更多元化应用场景,迎来AIGC浪潮时代。
但从业界看,其实大部分AIGC能力输出还处于“助手”或“协作”阶段。
“数字人要用好AIGC能力,做到真假难辨,技术难度非常大,成本非常高,最终导致数字人制造成本较高,生产效率低下。”一位业界人士表示。
AIGC从业人士陈雨恒在接受媒体采访时也提到,AIGC分为两大部分:一是图像侧AI,包括围绕人物角色展开的骨骼动画生成、面部表情生成、动作捕捉等技术;二是逻辑侧AI,包括围绕语言对话展开的语义理解、语言模型、对话机器人等技术。“无论哪一侧,都面临技术、成本门槛问题。”
这方面案例并不少。利用到AIGC能力的柳夜熙,去年10月以来凭借“捉妖”题材短视频爆红,10个月过去才发布19个作品,远远不能满足用户高频需求。英伟达在2021年动用34个3D美术师、15个软件研究人员,做了21个版本的黄仁勋,才呈现出一个真假难辨的“数字人”。
AIGC能力的差异,成为百度领跑数字人产业重要原因。最新数据显示,度晓晓在《2022虚拟数字人商业价值潜力》榜单中排名第一;在更多第三方机构发布的榜单中,依托百度 AI 的全栈能力,百度在数字人综合实力方面排名第一。
百度领跑AIGC能力原因何在?
原因看上去很简单,不管是AI数字人,还是“补全”《富春山居图》,百度AIGC背后的技术支撑,离不开百度搜索引擎海量数据的先天优势(数亿日活)、产业级深度学习平台飞桨和产业级“知识增强”大模型文心的AI综合沉淀能力,并由此带来的创作门槛、创作成本的大幅降低。
2016年,百度打造了中国第一个自主研发、开源开放的产业级深度学习平台飞桨。2019年,基于飞桨,百度开始深耕预训练模型研发,从大规模知识和海量数据中融合学习,打造具备“知识增强”能力的文心大模型。
比如,数字人画画能力,使用的是文心大模型——跨模态图文生成模型ERNIE-ViLG;而人对话能力,使用的是对话生成大模型——文心 PLATO,PLATO有接近真人水平的对话能力,对话效果已经达到世界领先水平。
《富春山居图》合璧,就是文心大模型能力完整体现:其先是学习大量中国山水画,实现从“小白”向“大师”的进阶,再去学习就可以让补全出来的画作与现存真迹风格一致。
这就是“视觉生成大模型+单样本微调”的技术策略,意味着该模型可以在更多书画文物修复以及普通人书画艺术创作中,发挥重要作用。
AIGC方向外,文心大模型还广泛应用于搜索、信息流、智能音箱等互联网产品,并通过飞桨开源开放平台、百度智能云赋能工业、能源、金融、通信、媒体、教育等各行各业,帮助千百行业降本增效以及智能化升级。
这正是百度大脑、飞桨和文心大模型等综合AI技术的核心价值——降低制作成本,实现大规模应用。
在数字人产业,更是帮助百度解决落地难问题的关键——产业链割裂、服务场景与演艺场景没有有效打通、满足高频需求成本高,是当前业界公认的数字人落地难题,也是实现“数字人自由”的最大障碍。
这些问题,归根结底是数字人生产效率、制作成本问题。百度解题思路是,通过AI底层技术支撑和成熟实践,打造了数字人平台“百度智能云曦灵”,让数字人制作成本、生产周期大幅下降。
目前“曦灵”形成了一个“AI数字人家族”,拥有数十万度晓晓这样能力的数字人。最重要的是,普通用户也可以通过“曦灵”快速生成自己的数字人——只需上传一张照片,就能用分钟级生成一个可被AI驱动的2D数字人像,以前需要两三个月时间做出来的3D数字人,现在可以压缩到一两周。并且,这些数字人的AIGC能力非常成熟,ASR(听得清)准确性可达98%以上。
多位业内人士认为,这是实现“数字人自由”的重要方向:一方面通过标准化、平台化,吸引更多用户、企业、行业拥有数字人;另一方面基于平台打造的生态链服务,降低数字人的高门槛、高投入。
这让百度在数字人行业有更大领跑机会。百度“AI数字人家族”原来集中在金融、银行、供应商客户,现在增加到广电、互联网娱乐、传统工业等诸多B端客户,另外C端的需求也越来越多——比如诸多品牌商的虚拟代言人合作需求。
“未来每个企业、每个人都有一个、甚至多个专属的数字人。”2019年4月,李彦宏在百度与浦东银行的数字人合作会上如此表示。
两年过去,伴随B端、C端齐头快跑,更多数字人各种场景的落地应用,这个愿景逐渐变成现实。
这一切,源于百度对AI领域压强式、马拉松式的研发投入。公开数据显示,研发投入方面,2021年百度核心研发费用221亿元,研发投入强度位列中国民营企业500强第一位。
如今,AI早已成为百度引擎之一。飞桨、文心大模型、深度语音系统、百度大脑、度秘、Apollo自动驾驶平台等多个AI相关的技术,都是百度不计成本投入的注脚。
百度由此打下未来元宇宙、Web3时代牢固的基础设施——Web3衍生出的三大基础设施分别是数字人、数字藏品、元宇宙。除了AI数字人,其余两方面百度均基于AI能力有深入布局。
数字藏品是支撑Web3经济体系的核心要素。百度2017年成立区块链技术部门,2022年上线超级链数字产品平台。如今,百度超级链已推出30多个全场景、全行业、全领域解决方案,打造出诸多标杆案例。
今年6月,中国探月航天以数字藏品形式发行我国第一艘数字载人飞船“梦想号”,招募1万名“太空数字乘客”上太空,背后依靠的正是百度超级链技术。
元宇宙则是开放的Web3数字空间。去年12月,百度在AI开发者大会上发布了元宇宙产品“希壤”。百度智能汽车品牌“集度”的首款汽车机器人概念车,就是在希壤全球首发。
这些都让百度在大厂扎堆Web3的竞赛中,处于行业领跑地位——相比“社交+Web3“、“支付+Web3”、“电商+Web3”等等模糊概念,百度无疑是最早叩开Web3落地大门的那一个。
“相较于布局直接和消费者互动的‘前端’,百度正在布局的是能够支撑起Web3的‘后端’,即从底层技术到产品、再到标准化解决方案的基础设施。”百度集团品牌负责人曹语馨曾如此介绍。
如今在业界,互联网大厂Web3情绪更为火热,争抢下一代互联网话语权。包括Meta、谷歌、亚马逊、阿里、腾讯、字节跳动、华为、推特、eBay、奈飞等等,都已争相入局。但无论如何竞争,都需要让用户、行业切实感受到真正改变。
这仍然需要依托AI全栈能力。至少,不能出现直播无人驾驶技术时,因频频提及“开车”而被直播系统判断为违规,从而断掉直播的“梗”。
从这个角度看,当出行、产业、生活等千行百业正加速向数字化转型和智能升级——百度在AI数字人等基础设施上的大规模落地应用,即是对内容生产模式上的颠覆变革,也是Web3中国重要力量的体现。