天极大咖秀

登录 | 申请注册

何以驾驭AIGC领域的关键进程?得深邃技术得天下

新芒X 2023-04-03 阅读: 8,267 次

“大海和火车成为那个世纪新兴经济的象征:强大、危险、难以驾驭和预测,但令人着迷和兴奋。” 这是诺贝尔经济学奖得主埃德蒙•费尔普斯曾在《大繁荣》一书中对19世纪有过这样的描述。

穿越回当下的21世纪,又有哪项发明具备这些特质?聚焦到科技领域,此时此刻,大家应该会达成一个空前的共识,那就是以ChatGPT为代表的AIGC技术。

随着ChatGPT的横空问世、4.0版本的重磅发布,以及一系列生成式人工智能产品的涌现和集中爆发,仿似拉开了一个新时代,令人着迷和兴奋。比尔盖茨甚至称赞道, ChatGPT是1980年以来最具革命性的科技进步。英伟达创始人黄仁勋将OpenAI的ChatGPT称为人工智能的“iPhone时刻。

近日,微软、百度、谷歌、Adobe等大招频出,像极了一场利用AI技术能力抢占AIGC制高点的高阶竞赛,火星撞地球般激烈,得以让我们充分地感受到AI的魅力和巨大潜力。

《闪电式扩张》一书讲到,每次重大增长都包含定性变化和定量变化。恰逢这场罕见的AI盛宴,我们试图在这个关键节点进行一次探寻,看看AIGC领域最新样貌,和那些主导其发展的重要变量。

关键节点下的AIGC进程

生成式人工智能是怎么一种存在?

有这么两个观点大概率能给出答案:

“生成模型代表了人工智能的新前沿,具有释放前所未有的创造力和创新水平的潜力。”这是当下最耀眼公司OpenAI 联合创始人兼首席执行官Greg Brockman的观点。

知名咨询机构埃森哲曾表示,“生成式人工智能有可能通过提供更个性化和更容易获得的产品和服务来创造一个更加公平和包容的社会。”

AIGC在推动社会发展进程中所发挥的作用不言而喻。之于企业, AIGC提供了更加智能、高效的运营方式和更好的商业机会;之于个体, AIGC不仅提高了个人的创造力和生产效率,还可以通过数据挖掘和分析来帮助个人做出更加明智的决策,为个人的职业发展带来了新的机遇;之于国家,可以更好地管理国家资源、提高治理效率、优化公共服务等方面发挥重要作用。

有的生活方式对人类具有长久的吸引力。AIGC的出现,势必会成为一种新的生活方式,极大地促成科技的发展推动社会的滚滚向前。

重回喧嚣:暗流涌动的大厂式AI

有了对AIGC的空前共识,那么此时的大厂是以怎样的姿态来拥抱和应对的?这种激烈程度可能超乎大家的想象。

今天看到这样一个关于当下人工智能样貌的总结:每天早上起来都要被科技的进步震惊一次。各大公司的科技军备竞赛已经到了以天为尺度。

就在3月中旬的一周,GPT-4、Microsoft 365 Copilot、Midjourney V5、文心一言等AIGC产品轮番登场,甚至有媒体称“这绝对是 AI 史上最疯狂的一周”。

到了3月下旬,22日晚上,Google Bard再次内测、英伟达投下核弹显卡、Runway Gen 2让你一句话生成各式大片、 Adobe Firefly惊艳发布,由此又被冠以“最卷的一夜”。

如果用一个词形容当下的人工智能领域,在笔者看来“暗流涌动”再合适不过了。人工智能技术打破多时的沉寂,在此刻爆发,各路玩家拿出看家本领,抢占制高点。我们不妨拿几个典型代表,围观一下各自的魅力。

GPT-4说成是地表最强多模态预训练模型也毫不夸张,官方介绍称 比以往任何时候都更具创造性和协作性。它可以生成、编辑并与用户一起迭代创意和技术写作任务,例如创作歌曲、编写剧本或学习用户的写作风格。但凡用过的,没有不被其征服的。

文心一言经过高调预热之后重磅发布,颇有隔空PK的既视感。作为全新一代知识增强大语言模型,能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。虽然发布会作为一个表象得到诸多吐槽,但经过后续的用户真实体验测评,话风却得到了反转,股价得以回升。

办公软件王炸Microsoft 365 Copilot,旗下的Word、PPT、Excel,通通都会得到GPT-4的加持。微软CEO纳德拉表示,今天是一个里程碑,意味着我们与电脑的交互方式迈入了新的阶段,从此我们的工作方式将永远改变,开启新一轮的生产力大爆发。

而经历了发布演示出现错误,股价蒸发1000多亿市值的谷歌,就在刚刚,再次携Bard正式开启测试,寻求将世界知识的广度与大型语言模型的力量、智慧和创造力相结合。这次股市还算买账,带来了近4%的涨幅。

除了这几个标杆性的AIGC产品,Midjourney V5、商汤旗下的书生2.5、Adobe 的Firefly等产品的重磅发布,都深刻地影响着不同领域的生产力变革。

“一觉醒来 AI 又变天了”是当下的真实写照。

AI狂飙式进化下的美丽新世界

这个新世界,必须用具体细节加以描绘。

那么面对疯狂输出的AIGC,之于普通的个体,又是怎样一种存在?以笔者为例,近期兴奋地体验着各个新AI产品的神奇功能,并深切地感受着给工作生活带来的改变甚至是冲击。

ChatGPT的应用就不用多说,已经成为日常,比如写作这篇内容时,就多次寻求ChatGPT查询相关资料内容。在做带货短视频时,更是因为这个工具,让文案输出更加高效质量更高。

像Midjourney、Scribble Diffusion笔者也在不断地尝试,甚至还在给孩子展示体验他们的神奇之处,试着让孩子输入奥特曼等字句坐等图像的出现。D-ID文字转视频平台,只需按一下按钮即可创建会说话的化身并与之互动,分分钟实现了数字人自由。

在这些纷繁多彩的AI产品中,涉及一个绕不开的问题,就是商业化问题。

OpenAI的盈利模式主要是通过向企业和政府提供人工智能解决方案和技术咨询服务以及与其他公司合作开发人工智能技术等方式实现的。

我们还听到这样一个来自小冰公司CEO李笛的观点:AIGC商业回报赛道最大的其实是数字人,这是我们的判断,因为它的客单价明显会更高。

为什么这么说,据了解,后来他们把生成的能力捆绑在数字人身上,平均客单价迅速地从20万提高到了300万。

不可否认的是,数字人作为最为当前典型的AIGC应用之一,目前正在各类线上线下的服务场景中展现出多样的应用价值。

比如在银行业,宁波银行上海分行就采用了商汤科技打造的数字人产品,并用“小宁”这个名字,以栩栩如生的大堂经理形象为银行客户提供各类业务咨询和办理服务,受到了很多好评。

而在线上,数字人还可以作为虚拟IP,在直播平台上与网友互动。比如宁波银行以“小宁”虚拟的招聘老师形象,和真人招聘老师共同主持了一场校园招聘活动,能言善道,亲和十足。

数字人的广泛应用,使得AIGC更有想象空间的变现路径得到验证。AIGC领域的玩家跑通商业模式,形成正向循环,促成更大力度地创造长期价值。

何以锁定AI式成功?唯有深邃技术

技术是创新永久的驱动力。放置到AI领域,笔者认为一般性的技术还不够,特意用了“深邃”二字来加注。

得深邃技术者得天下,唯有深度技术才能掌控住AI发展的节奏。在这一进程中,始终体现在算法模型、算力基座,创作工具三大招牌能力。

在算法模型方面,大模型是AIGC技术创新的重要驱动力。由于AIGC需要生成各种类型的内容,因此对文本、图像、音频等多模态内容的处理是核心。只有学习能力更强大的、能够处理多模态数据的大模型,才能够更好地利用和整合这些不同类型的数据,实现高质量的AIGC生成效果。

当前,已经发布的AIGC多模态大模型,主要可以完成包括“文生图像、文生视频”,以及针对给定的文本或图像生成相应的文本(如自然语言、代码)等任务。用户可以输入一段文字,然后由AI直接做图、生成视频,可以显著提高人们的办公效率。

在多模态大模型方面,除了OpenAI的GPT-4,百度的文心大模型外,阿里、华为、商汤等,近几年也都在积极部署多模态的大模型研发。

比如商汤最新推出的多模态多任务通用大模型“书生(INTERN)2.5”,实现了通过文本来定义任务,可以灵活地定义不同场景的任务需求,并根据给定视觉图像和任务的提示性语句,给出相应的指令或作答,进而具备通用场景下的高级感知和复杂问题处理能力,比如图像描述、视觉问答、视觉推理和文字识别等。

除了书生2.5多模态大模型,商汤也在近期财报中透露了更多的大模型研发方面的信息,包括:在计算机视觉大模型方面,成功研发了320亿参数量的全球最大的通用视觉模型,并在自动驾驶、工业质检、医疗影像等多个领域得到广泛应用。语言大模型方面,成功研发了千亿参数量预训练大模型,显著提高了文本生成、人机对话等任务的性能,计划将于2023年中推出市场。AI生成内容(AIGC)方面,实现了多个文生图大模型的训练,对文字生图的理解、出图画质与推理速度等任务具备出众的能力,尤其在中国传统文化的理解方面具备独特优势。

据了解,商汤自2016年起就开始全面布局AIGC方面的各个技术领域,包括文字、语音、图像、视频、代码、三维人物动作等多模态的数据分析和内容生产,并在互联网娱乐、AR等领域有着多年的实践经验。

新芒认为,多模态大模型的研发,不仅需要先进的算法能力,还要结合丰富的产业知识,才能构建泛化性能更好、通用性更强的大模型。

在算力基座方面,大算力可以支持更复杂的模型和更大规模的数据训练,提高AIGC生成内容的质量和多样性。

美国市场研究机构TrendForce在报告中测算称,处理1800亿个参数的GPT-3.5大模型,需要的GPU芯片数量高达2万枚。未来GPT大模型商业化所需的GPU 芯片数量甚至超过3万枚。可以说,ChatGPT看似只是聊天机器人,但却是微软的AI算力在市场的一次肌肉展示。AIGC势必会掀起新一轮的算力比拼。

以亚马逊为例,2022年资本支出580亿美元,超过50%用于投资云基础设施。至于Google Cloud等云计算厂商,他们同样拥有先进的云计算基础设施,可以提供高效、稳定、安全的算力支持。

在国内,各地方政府和企业也在深度参与算力基础设施的建设,比如去年5月上线的西南地区最大的人工智能计算中心“成都智算中心”、位于上海临港的商汤人工智能智算中心(AIDC)等等。据悉,AIDC目前上线了1.745 exaFLOPS(每秒174.5亿亿次浮点运算)的算力规模,作为商汤科技SenseCore AI大装置的底座,为算法模型的分析、低成本训练、大规模数据管理提供支撑。

创作工具也是AIGC应用开发的关键一环。在大模型和大算力的前提下,只有再加上高效易用的工具,才能真正让更多垂直行业的创作工作者以更低的门槛、更低的成本获取到这项技术,实现行业革新。

行业普遍认为,一项技术需要演化成为或者大幅改善生产力的生产力工具,并带来生产要素价格的大幅降低,才能驱动时代的变革。

例如,在AI发展的初期,行业厂商为了让更多的开发者更高效地开展AI模型的训练和开发,先后推出了大量的框架平台和相关组建,比如NVIDIA推出的CUDA平台和cuDNN库,可以帮助开发者更加便捷地进行深度学习算法的开发和优化。此外,Google的TensorFlow和Facebook的PyTorch等深度学习框架更是成为了当今AI开发者们的首选开发工具。

随着今天AIGC技术的革新,AI正逐渐成为很多人生活和工作当中的重要辅助。如何让各行各业的工作者,都能够高效地利用各种不同的AIGC工具,来完成不同的工作内容,就是交给各大AI企业的全新任务。比如,前文提到的Midjourney V5,目前已经成为很多画师或设计工作者的全新助手。又如商汤面向行业客户提供的AIGC创作工具,可以通过一段视频就能够生成逼真的数字人,或是对现实场景的重建,目前已在地产行业开展相关的应用,给用户带来沉浸式的看房体验。

“科技是一种力量,它可以让我们改变世界,甚至可以让我们改变自己"。这是未来学家和发明家Ray Kurzweil的观点。毋庸置疑,正是这一系列的深度技术,不遗余力的推动着社会的进步。

新芒x如是说

ChatGPT的出现,强势拉升了AI普及的速度。AIGC产品的涌现,让我们看到了AI的多样性和带给用户真切的体验。

大哲学家尼采曾说:你使我们看到新的星辰和新的夜之壮观。AIGC技术也像一种魔力,让我们看到新的星辰,捕捉未来生活的魅力和悬念。

新芒X
新芒X,专注AI和新科技、兼具内容品质和传播影响力的新媒体。

特别声明:文章版权归原作者所有,文章内容为作者个人观点,不代表大咖秀专栏的立场,转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)