特征工程
虽然仅通过数据的性质也足以构建合适的特征,但这样未免有些过于技术流了,我将尝试解释金融学含义,这样或许会更为直观一些。
哑变量处理
转为独热码
我们将被标准化的哑变量复原,并转为独热码,以方便后续的机器学习。
交互特征
我发现哑变量与一些其他变量存在一定程度的相关性,因此考虑构建交互特征。这里自由发挥的空间非常大,你可以选择简单的相乘,也可以利用机器学习挖掘隐藏的交互关系,构建更为复杂的交互特征。
分组
通过上面的相关矩阵热力图,我们将数据分为5个大组,每组115个数据(其中第一组缺少后16个数据,这样正好是559个X;而需要预测的8个Y就相当于是第六组的前8个数据)。
组内可以分为若干个小组,每个小组内相关性较强,小组间可能存在一定相关性,但总体较弱。我猜测每个小组可能都是某种高频时序数据,也有可能是金融学含义接近的基本面因子或截面数据。