编者按:
用自然语言设定行为边界,以持续评估机制构建安全防线,AI智能体的“制度笼子”正从技术理念变为企业级标准。
当AI智能体(Agent)从实验室的概念验证,一跃成为渗透金融审批、医疗辅助、跨境客服、代码生成等核心场景的“数字同事”,一场效率革命正以前所未有的速度重塑产业格局。
Gartner预测,到2028年,33%的企业软件应用将内嵌代理型AI,15%的日常工作决策将由智能体自主完成,而2024年这一比例几乎为零。但狂奔的背后,风险隐患也在暗流涌动。
2025年被业界公认为“Agentic AI原点之年”,智能体已完成从“被动应答”到“主动执行”的范式跃迁。与传统AI助手不同,现代智能体能够拆解模糊任务、自主调度数据、协同外部系统,甚至在执行中自我修正,成为“人的延伸”。未来会有数十亿个Agent活跃在各类场景,它们不再是简单工具,而是能独立完成复杂任务的协作伙伴,但缺乏规则约束的技术创新如同无舵之舟,迟早会偏离价值轨道,只有把安全合规作为底层逻辑,智能体才能真正赋能产业。
智能体的规模化发展绝不能“裸奔”。如何在释放技术红利的同时筑牢安全防线?亚马逊云科技在re:Invent 2025中国行活动中给出了明确答案:通过Amazon Bedrock AgentCore平台的Policy策略管制与Evaluations评估体系两大核心工具,将抽象的制度规范转化为可落地的技术约束,为智能体打造安全可控的“制度笼子”。
AgentCore Policy为智能体立“规矩”
筑牢事前合规防线
智能体“失控”的核心症结,在于缺乏明确的行为边界和权限规范。传统智能体的权限管理依赖复杂代码编程,技术门槛高且难以适配动态变化的业务与监管要求,而AgentCore Policy功能的推出,彻底改变了这一现状,如同为智能体制定了一套可执行的“行为准则”,让合规要求前置嵌入运行逻辑。
作为Amazon Bedrock AgentCore的核心能力之一,Policy隶属于Gateway模块,支持通过Cedar策略语言,以自然语言形式直接定义智能体的操作边界和权限范围,即使是非技术背景的合规人员也能轻松配置。这些规则会集成到运行环境中,对智能体的每一次数据访问、系统调用和决策执行进行毫秒级实时校验,确保其始终在预设框架内运行。
通过Cedar,可以把策略在毫秒级之内就可以部署到Amazon Bedrock AgentCore Gateway。由于这些操作、这些策略不是在智能体内,它是在智能体和访问的这些工具之间,所以它可以严格地保证智能体在执行操作的时候能够严格地按照要求来。执行是通过Policy在智能体以外得到实施的,智能体的执行的时候,它不会去做跟这些策略相违背的这些行为。
比如,某跨境电商平台通过自然语言设定规则:“当退款金额高于1000美元时,阻止智能体自主处理,触发人工审核”,无需复杂代码即可落地执行;医疗行业开发者设定“禁止智能体提供具体用药建议”“涉及手术方案必须引导用户咨询主治医生”等规则,有效防范医疗风险;金融机构则通过Policy限制智能体访问核心资金账户,仅开放必要查询权限,确保资金安全。更重要的是,Policy支持动态调整,企业可根据业务变化和监管更新实时优化规则,让“制度笼子”始终适配实际需求,真正实现“信任,但要验证”的治理原则。
AgentCore Evaluations做智能体的“督察员”
构建全流程质量管控
如果说Policy是“事前预防”的行为边界,那么AgentCore Evaluations就是“事中监控”与“事后优化”的质量标尺,精准解决了智能体行为质量难以量化评估的行业痛点。传统评估方式需要投入大量数据科学资源,搭建复杂评估体系,且难以应对智能体快速迭代带来的动态变化,而Evaluations提供了开箱即用的全流程评估解决方案。
Evaluations内置13个预构建评估器,覆盖正确性、安全性、实用性、工具选择准确性、目标达成率等核心维度,无需企业额外搭建基础设施。它如同智能体的“专职督察员”,通过持续采样实时交互数据,对运行状态进行全方位监测和量化评估。
在客服场景中,它能自动分析智能体回复的合规性和问题解决效率,比如当用户满意度在8小时内下降10%时,系统会立即触发预警;在代码生成场景,评估器会检测输出代码的安全性和可扩展性,避免漏洞代码引发系统风险;对于金融、医疗等特殊行业,Evaluations还支持基于自定义LLM和提示词构建专属评估器,满足行业特定标准。
比如,通过自定义评估器,将“分析报告必须引用最新行业数据”“禁止提供确定性投资建议”等专业要求转化为量化指标,确保输出内容合规可靠。Evaluations让智能体的行为可量化、可追溯、可优化,为企业提供了科学的质量管控工具。”
结 语
Policy与Evaluations的协同配合,构建起“事前设限—事中监控—事后优化”的全流程治理体系,让智能体规模化应用有了安全保障。在这套体系支撑下,不同行业、不同规模的企业都实现了智能体安全落地。
值得注意的是,这套治理方案并非束缚智能体的创新活力,而是通过明确规则和科学评估,让智能体在安全可控范围内发挥最大价值。AgentCore的全栈架构支持Policy、Evaluations与Memory等功能深度协同,智能体在Policy划定的边界内自主运作,通过Evaluations发现的问题,可结合Memory功能优化后续行为,形成“治理—运行—优化”的闭环。这种模式既解决了企业对智能体安全的顾虑,又通过低代码特性降低开发门槛,让中小企业也能享受到技术创新红利。
随着智能体从办公协同等基础场景,加速渗透到支付处理、贷款审批、安全审计等严肃业务领域,治理体系的重要性日益凸显。亚马逊云科技的实践表明,技术创新与风险治理并非相互对立,而是相辅相成的共生关系。AgentCore Policy和Evaluations的双轮驱动,将抽象的制度规范转化为可执行、可监测、可优化的技术方案,让“把智能体关进制度笼子”从理念变为现实。
Policy划定的行为边界和Evaluations构建的评估体系,共同构成了智能体安全发展的“护栏”。这种治理模式不仅适用于当前的智能体应用,更为未来数十亿智能体共存的数字生态奠定了信任基础。
在AI技术飞速发展的今天,智能体的“疯狂生长”是必然趋势,但“裸奔式”发展绝不可取。毕竟再快的“裸奔”也无法抵挡风中的沙子。