天极大咖秀

登录 | 申请注册

智能体会失控吗?AI安全亟需重构

郭涛 2025-05-08 阅读: 1,015 次
“当前,AI尚处于实验阶段,无需特别防护。”现实中恐怕持这一观点的行业用户不在少数。正因如此,AI的安全才更应该引起千行百业的重视。所谓人无远虑,必有近忧。

从DeepSeek的一夜爆火,到号称全球首款通用型AI智能体产品Manus的瞬间刷屏,AI正从被动到主动,从建议者演进为执行者。在这个转变过程中,安全隐患和风险如影随行,无论是AI自身的“后门”,还是别有用心者的虎视眈眈,都为AI的落地增加了不可预知的变数。

AI智能体更需要“安全左移”

进入2025年,关于AI智能体的讨论越来越热烈。据Gartner预测,到2028年,至少15%的日常工作决策将由AI智能体自主完成。可以预见,随着技术不断成熟,成本持续降低,AI智能体市场有望迎来“井喷”,而2025年将成为AI智能体从实验室走向商业化探索的元年。

正因为AI智能体还处于探索发展的初级阶段,人们对于AI智能体的认识和应用有限,在相关的安全风险感知、处置方面,更缺乏经验,使得许多AI智能体在安全保护方面实际上处于“裸奔”的状态。

Gartner高级研究总监赵宇表示,她们在对一些企业进行调研时发现,大多数企业目前还处于AI智能体应用的测试期,开展大规模商用的并不多,AI智能体更多地被用于聊天助手或是工作流的集合,AI智能体特有的风险还没有充分暴露出来。这恰恰是企业用户在使用AI智能体时最容易麻痹大意的时候。

以往,安全都是在问题发生后,企业才会认真思考和对待的一件事情。虽然“亡羊补牢,为时未晚”,但是已经造成的损失有可能是无法挽回的。因此,在企业开始应用AI智能体时,其安全团队就应该第一时间介入。

“2025年以来,很多企业会主动和我们聊起‘AI安全治理’,当然AI智能体的治理也在其框架之下。这意味着,企业应该如何使用AI和智能体,服务于什么样的场景,采用什么样的治理框架,会产生哪些利益相关方等,都应该纳入安全团队的考量范畴。”赵宇表示,“此时,安全团队面临的最大挑战,首先是技能上的,因为很多安全人员还在研究和学习AI技术、AI智能体,在此基础上才有能力识别出具体的安全风险,所以安全防护会有一定的滞后性。”

那么,究竟应该如何正确面对这段滞后期或者说时间差呢?赵宇建议,企业可以先遵循现有的安全开发和保护原则,夯实安全基础,构建起整体的安全治理框架,而不是在还没有学会走之前就想跑起来;接下来,在深入了解和认知AI智能体的基础上,再有针对性地研究与AI智能体相关的一些特殊风险,找到或者开发出专门的工具,为AI智能体的应用保驾护航。

AI智能体的风险分析与应对

Gartner走访了国内的一些企业客户,他们当中的70%甚至更多,并不了解AI智能体到底是什么,那就更谈不上对其安全风险的认知。从厂商的角度,大部分的人工智能、大语言模型、AI智能体的提供商,都没有配备专职的安全团队,其交付的产品是否通过安全测试,或者是否存在可被攻击者利用的漏洞,需要打上个问号。从相关法规和标准来看,已经有些研究机构推出了AI智能体的相关技术要求,但是关于AI智能体的内生安全,无论是全球还是中国,相关的标准、规范和监管要求都非常不充分。厂商在风险管理的复杂性、如何实现安全治理等方面,仍然缺少成体系的指导。

Gartner归纳出了AI智能体在应用中可能存在的四方面风险。

第一,AI智能体是在生成式AI和大模型的基础上实现的进一步工具化的动作,因此传统人工智能中存在的风险,在AI智能体的应用场景下有被进一步放大的趋势。

具体来看,AI幻觉可能会更严重。对于AI智能体来说,其推理的复杂性、上下文的跨度,远远超越“一问一答”式的使用方式,所以幻觉问题会更明显。而且AI智能体通常处于比较动态的环境中,业务流程和环境不断变化,幻觉引发的对环境的错误解读可能会导致严重的安全事故,比如错误识别道路标识或物体,将引发交通事故。

提示注入攻击的风险大大增加。在应用于AI智能体时,MCP(模型上下文协议,Anthropic推出的开源协议)允许接入第三方工具,它们会被当成系统提示的一部分而获得信任,进而拥有更大的权限。这样一来,恶意攻击者就有机会通过MCP修改和覆盖AI智能体的行为。在这种情况下,提示注入就从单纯的文字性指令变成了操作性指令的一个攻击行为。

数据泄漏虽然是一个老生常谈的问题,但对AI智能体来说依然是不容忽视的风险。现在的攻击者会制作一些恶意工具,诱导AI智能体读取敏感文件甚至密码,如果AI智能体本身无法识别,就会轻易将敏感内容外发给攻击者,从而造成数据泄漏。随着AI智能体的应用逐渐增加,无意间的数据泄漏可能会增加。

如何应对上述风险?Gartner提出以下措施和建议:首先,因为幻觉无法完全消除,所以除了常用的输入校验、输出可控性验证之外,企业还应加强对抗训练,以增强模型及AI智能体的鲁棒性,从而有效减少幻觉;其次,借助指令和边界控制,识别和拦截一些已知的攻击模式,同时限制AI智能体能访问什么样的外部知识或者能调用什么样的外部工具,比如通过白名单的方式或API的限定,实现边界防护;再次,供应链的安全加固同样重要,因为开源的组件中有太多的漏洞可能会被利用,所以要对AI智能体依赖的开源库进行软件成分的分析扫描,以阻断已知漏洞传播,同时还可以采用一些可解释性的AI工具,可视化AI智能体决策的过程;最后,防止数据泄漏的方法有很多,比如采用动态数据掩码,或者采用独立的加密通道进行数据传输和存储,另外还有像数据血缘追踪技术等,都可以帮助用户更好地了解数据生命周期,可视化数据是如何在AI智能体中传播的,以及传播了什么样的数据等,进而采取有效的数据保护策略。

第二,传统人工智能就是输入和输出,最终的决策和在系统中的执行都是由人来完成的。但是由于AI智能体具有自主决策的能力,并且可以执行一定的操作,所以不管是被恶意的攻击者所利用,还是因为自身的完备性和能力不足,AI智能体在自主决策层面会面临较大的风险。

由于AI智能体具有不可预测性,或者因其持续的学习和自我优化,很可能在应用中超出设计者预期的范围,出现目标偏离的情况,这就增加了安全管理和风险控制的难度。因为AI智能体的行为是动态的,在进行用户行为分析时如何确定安全基线也是一个巨大的挑战。

为消除上述风险,Gartner提出以下建议:进行实时持续的监控,同时建立自动化响应机制,让安全团队积累更多经验,将来能够设定更合理的动态基线;进行行为测试,比如用沙箱或攻击模拟的方式测试AI智能体的行为,让用户更好地理解系统运行机制和潜在的行为;企业在准备采用AI智能体时,其安全团队一定要在第一时间介入,了解AI智能体主要服务于什么样的业务场景,在业务链条中有什么样的行为等,这样才能更好地分析它面临什么样的安全风险。

第三,在复杂的应用环境中,需要多个AI智能彼此交互协作,共同完成特定任务,因此多个AI智能体在交互的过程中会存在风险隐患。

Gartner在近期发布的一份关于AI智能体的预测报告中提及,针对AI智能体的安全攻击主要集中在利用访问控制的漏洞上。AI智能体是一种新的特权访问的身份,通常需要访问大量数据,包括敏感数据和关键业务流程的权限。只有这样,AI智能体才能更好地处理命令、检索,以及实现数据的访问和输出。一旦AI智能体的访问身份或其业务逻辑遭到破坏,产生的危害将是巨大的。在多智能体的环境中,访问控制的风险将呈指数级增长,谓之“级联失控”。另外值得注意的是,多智能体在交互的过程中,访问相同的资源或在执行任务时,可能会出现资源的竞争和冲突,这将导致系统资源被滥用,或者任务执行的效率降低,从而影响整体的业务和系统稳定性。

针对上述情况,Gartner建议,采取动态访问控制和审计,为每个AI智能体分配唯一的凭证,并且最好禁用静态的API密钥,采用动态验证的方式,同时还要采用最小权限原则等。也有一些安全厂商在探索和尝试采用零信任架构,要求对所有访问请求进行验证。另外,资源的隔离与动态配额也是必要的手段,即为每个智能体分配独立的计算资源,并设置CPU、内存、存储等资源的上限,同时基于业务优先级为不同的智能体设定不同的优先级,在实现资源动态分配的同时,确保业务的优先级。在多智能体交互的情况下,应该进行跨智能体攻击的向量分析,针对资源耗尽、横向提权等,安全团队可以设计一些特有的安全场景,以及相应的安全测试用例,通过对数据流转的分析,追踪智能体之间数据是如何流转、权限是如何传递等情况,从而识别出潜在的权限放大等诸如此类的漏洞。

第四,物理环境中存在的交互风险,虽然谈论的不多,却是风险最大的一环,因为不管是工控、自动驾驶,还是无人机操作等,一旦物理环境中存在安全隐患,就有可能造成生命健康、财产安全等方面的重大损失。

物理环境中的风险主要有三类:第一类是环境攻击,有时不一定是攻击,可能只是对传感器的欺骗,比如黑客通过恶意输入,让传感器、摄像头、雷达或麦克风产生误判;第二类是恶意指令,它对应的是网络中的提示注入,可直接修改物理层面的信号,或是恶意引导、篡改输出的行为,比如在工控领域,恶意篡改传感器的温度,可能导致工控设备失控;第三类是对隐私的侵犯,比如在酒店中,如果黑客控制了酒店服务机器人或者酒店其他的智能设备,就可以“一键开门”,或者恶意收集住宿人的数据,侵犯个人隐私。

为有效避免上述情况的发生,Gartner建议企业采取以下措施:第一,采用多模态交叉验证,比如当传感器遭遇欺骗或者被恶意输入的时候,用户可以结合多传感器的数据进行数据融合交叉验证,以降低单一传感器被欺骗的风险;第二,行为的执行控制,这类似于“电子围栏”的概念,即通过设定白名单,让智能体在特定环境下才能执行预定义的安全操作;第三,边缘计算和隐私加密,如果能够在物理化的智能体终端上完成数据处理,就可在一定程度上减少敏感数据的外发或回传,比如智能家居设备如果能在本地识别语音指令,就不必将指令上传至后台进行处理,从而减少风险点。

积跬步  至千里

当前,中国企业普遍关注两个问题:一是AI智能体对于数据的访问,会不会增加数据安全方面的风险,金融企业尤其关注这一问题;二是AI智能体在自主决策方面面临的安全挑战。

由于AI智能体的应用还没有全面铺开,在很多情况下,企业只能是“摸着石头过河”。传统AI安全会用到的诸如安全护栏、实时性检测以及相它安全防护技术,仍然适用于对AI智能体的保护,基本可以覆盖80%至90%的场景。但还有一些AI智能体应用的特殊场景,其安全防护只能是边研究边实践。

幸运的是,当前大部分中国企业都是在纯内网环境中部署AI智能体,其风险在一定程度上是可控的。虽然内网并非铁板一块,但是一旦发生安全事件或告警,有据可查,能够有效追溯。另外,在内网环境中,传统的网络安全措施可以抵御大部分外来的安全攻击,因而安全风险发生的概率也会小一些。

从厂商的角度,无论是AI智能体厂商,还是专业的安全厂商,都应该肩负起各自的职责,共同保护AI智能体应用的安全。赵宇表示,最完美的情况,厂商在推出AI智能体产品时,就应该保证其安全。但是,理想是丰满的,现实却是骨感的。目前,智能体厂商与安全厂商在AI智能体的安全保护方面如何划分边界,业界还没有一个清晰的定义和标准。

赵宇预测,未来在AI智能体安全领域,有两类厂商可能会脱颖而出:一类是像谷歌这样既提供智能体,同时又拥有安全产线的厂商,它们在提供AI产品或服务的同时,就会提供内嵌的,或者供客户按需购买的安全服务;另一类就是那些“小而美”的初创型企业,它们会聚焦新兴的AI智能体安全技术,进行深入研究,在适当的时机便会崭露头角。

从全球范围来看,各国都高度关注AI治理,但是鉴于地缘政治的影响,以及各个国家、地区法规的碎片化,全球化的统一的AI治理体系在短期内很难建立起来。从企业的角度,对于长期安全风险的重视程度还不够。赵宇表示,AI智能体的安全涉及整个供应链,希望未来能够通过国际化的合作与协同,建立全球化的统一标准,加速推动对AI智能体安全的有效保护。

郭涛
以“云”为基,以“数”为魂,以“智”为道,新IT,新经济。

特别声明:文章版权归原作者所有,文章内容为作者个人观点,不代表大咖秀专栏的立场,转载请联系原作者获取授权。(有任何疑问都请联系wemedia@yesky.com)