跳转至

特征工程

虽然仅通过数据的性质也足以构建合适的特征,但这样未免有些过于技术流了,我将尝试解释金融学含义,这样或许会更为直观一些。

哑变量处理

转为独热码

我们将被标准化的哑变量复原,并转为独热码,以方便后续的机器学习。

交互特征

我发现哑变量与一些其他变量存在一定程度的相关性,因此考虑构建交互特征。这里自由发挥的空间非常大,你可以选择简单的相乘,也可以利用机器学习挖掘隐藏的交互关系,构建更为复杂的交互特征。

分组

通过上面的相关矩阵热力图,我们将数据分为5个大组,每组115个数据(其中第一组缺少后16个数据,这样正好是559个X;而需要预测的8个Y就相当于是第六组的前8个数据)。

组内可以分为若干个小组,每个小组内相关性较强,小组间可能存在一定相关性,但总体较弱。我猜测每个小组可能都是某种高频时序数据,也有可能是金融学含义接近的基本面因子或截面数据。

组内时序数据