主页 > imtoken安卓版 > 如何利用主成分分析构建黄金期货的量化择时策略

如何利用主成分分析构建黄金期货的量化择时策略

imtoken安卓版 2023-03-24 07:56:16

当我们研究某些问题时,我们需要处理具有许多变量的数据。有许多变量和数据,但可能存在噪音和冗余。但是,主成分分析法可以用几个变量来表示所有变量,解释研究人员想研究的问题,把复杂性化简,把握关键黄金量化交易策略,也就是思想的思想​​​​降维。本文以黄金期货为例,通过分析其基本面数据,提取出对黄金影响较大的10个基本面变量,利用主成分分析对数据进行降维,并采用降维后的新变量。为黄金期货制定量化时机策略。

主成分分析的核心思想

当我们研究某些问题时,我们需要处理具有许多变量的数据。例如,要研究房价的影响因素,需要考虑的变量包括价格水平、地价、利率、就业率等。变量和数据很多,但可能存在噪声和冗余,因为一些这些变量中的一个是相关的,那么你可以选择其中一个相关的变量,或者将几个变量组合成一个变量作为代表。用几个变量来代表所有变量来解释所要研究的问题,可以简化复杂性,抓住重点。这就是降维的思路。

主成分分析(PCA)是一种利用线性代数知识进行数据降维的方法。它将多个变量转换为几个不相关的变量,但转换后的变量可以更全面地反映整个数据集。这是因为数据集中的原始变量之间存在一定的相关性,可以用较少的综合变量来表达原始变量之间的信息。

具体来说,在数学变换中保持变量的总方差不变,使得第一个变量的方差最大,称为第一主成分,第二个变量的方差第二大,不相关到第一个变量。称为第二主成分。依此类推,i 个变量有 i 个主成分。其中,Li为p维正交化向量(Li×Li=1),Zi互不相关,按照方差从大到小排列,则称Zi为第i个主成分X 的协方差矩阵为 Σ,则 Σ 一定是一个半正定对称矩阵,求特征值 λi(从大到小排序)及其特征向量,可以证明 λi 对应的正交化特征向量是第i个特征向量 每个主成分Zi对应的系数向量Li,Zi的方差贡献率定义为λi/Σλj,通常需要提取的主成分个数K满足Σλk/Σλj>0.85.

图中显示了相关变量的线性变换

PCA的核心思想是降维,降维的基础是变量之间的相关性。主成分分析法并不要求所有变量都相关,但有些变量之间的相关性比较大,可以满足降维的条件。因此,对价格内在因素相关性较强的期货品种,采用主成分分析法进行分析研究较为合适,但对影响因素相关性较弱的期货品种则不适用。

那么主成分分析是如何降维的呢?我们从坐标变换的角度得到一个感性的认识。

事件驱动策略量化研究系列专题 此时无声胜有声_博易大师交易量化交易_黄金量化交易策略

正态分布降维的主成分分析图

在短轴上,观测点数据的变化相对较小。如果这些点在短轴上垂直投影,很多点的投影会重叠,这意味着很多数据点的信息没有被充分利用。 在长轴上,观测点的数据变化很大。因此,如果轴与椭圆的长轴和短轴平行,那么表示长轴的变量可以直接从数据集的原始变量中找到,这些变量描述了数据的主要变化。另一个原始变量表示短轴上的变量,描述数据的微小变化。

在极端情况下,短轴退化为一个点,那么只有长轴的变量可以解释数据点的所有变化,二维数据可以降为一维。但是,这些轴通常不平行于椭圆的长轴和短轴,如上图所示。因此,需要构建一个新的坐标系,使新坐标系的坐标轴与椭圆的长短轴重合或平行。这就需要进行坐标变换,将原坐标轴上的观测点坐标转换为新的坐标系,同时将原变量转换为长轴变量和短轴变量。这种变换是通过线性组合原始变量来执行的。以某种方式完成。

例如,一个观测点在原X-Y坐标系中的坐标为(4,5),坐标底为(1,0)和(0,1)) , 如果长轴是斜率为1的直线,短轴是斜率为-1的直线,新坐标系以长轴和短轴为坐标轴,则新坐标基可以看作

和。

我们将两个坐标基排成行作为一个变换矩阵,将原坐标相乘,即对原坐标进行线性组合,得到该点在新坐标系中的坐标。

可以看出,变换后长轴变量的值远大于短轴变量的值。

如果长轴变量解释了数据集中的大部分变化,那么可以用长轴变量来表示原来的两个变量,从而将二维数据降为一维。椭圆的长轴和短轴的长度之间的差异越大,这种方法的效果就越好。本文以黄金期货为例,运用主成分分析法对影响黄金期货价格的基本变量数据进行降维,构建其量化交易策略。

事件驱动策略量化研究系列专题 此时无声胜有声_黄金量化交易策略_博易大师交易量化交易

影响黄金价格的主要因素

黄金作为一种特殊的商品,具有商品、货币和投资对冲的多重属性。本文从黄金供求、经济数据、金融资产三个维度,选取一些基本面因素来分析黄金价格的影响。

首先看黄金的供需情况。黄金作为大宗商品,上游供应受到黄金开采和废金回收的影响,而下游主要需求可分为制造业需求(珠宝首饰、工业材料等)和金融投资需求。此外,央行等大型市场参与者的黄金买卖也会影响市场供需格局。

其次,让我们看看经济数据。黄金作为一种金融投资产品,受当期经济周期的影响。例如,在经济停滞时期,黄金的表现通常较好,投资者更愿意将资金配置在黄金上。除了描绘当前的经济图景外,经济数据还会影响央行的货币政策。以美联储为代表的主要国家央行的货币政策对同期金价走势也有较大影响。

最后,让我们看看金融资产。一方面,一些金融资产的变化可以直接影响黄金价格和投资者偏好。例如,在低利率时期,黄金的持有成本相对较低,配置价值相对较高。外汇波动将直接影响以该货币计价的黄金价格。另一方面,部分金融资产和黄金受同一影响因素影响,价格波动具有高度相关性,能够更好、更快地反映当时市场的经济金融氛围。

根据以上分析,笔者选取与黄金相关性较高的10个基本面指标进行分析回测,即美国10年期国债收益率、美国10年期国债实际收益率、美元指数、VIX 恐惧指数、美国失业率、美国非农就业人数、美国 CPI、美国 PPI、美国 ISM 制造业 PMI、央行和其他机构的黄金需求。

数据处理

数据预处理

事件驱动策略量化研究系列专题 此时无声胜有声_博易大师交易量化交易_黄金量化交易策略

商品期货基本面数据具有类型多样、时间离散、发布时间不规律等特点。它需要进行预处理。预处理的主要目的是将其转换为可以比较和分析的数据。按数据发布频率对它们进行分类并及时调整。处理数据时,要注意美国数据发布时间与国内数据发布时间的时差,以及月度和季度数据发布的滞后性。

Z——评分模型

由于基础数据的维度不统一,需要处理成无量纲、可比的数据。在基本面分析中,Z-Score 方法通常用于处理基本面数据。 Z-score模型基于多元统计方法,以破产企业为样本,通过大量实验,分析判别企业的经营状况和是否破产。具体处理方法是从原始数据中减去一段时间的平均值,然后除以该时间段数据的标准差。 Z-Score数据能真实反映一个分数与均值的相对标准距离,能真实反映原始数据的波动率信息。

例如,假设我们要比较 A 和 B 的考试成绩。A 的试卷满分是 100(通过 60),B 的试卷是满分 700(通过 420)。显然,A 得到的 70 分和 B 得到的 70 分代表着完全不同的含义,但在数值上,A 和 B 都用数字 70 来表示各自在数据表中的得分。那么如何将 A 级和 B 级与同等标准进行比较呢? Z-Score 可以解决这个问题。

定量回测

变量选择

首先确定降维后的变量个数,然后分析其波动变量的方差比,最后选出对变量集波动贡献较大的变量。

图为变量波动方差的贡献分布

黄金量化交易策略_博易大师交易量化交易_事件驱动策略量化研究系列专题 此时无声胜有声

从波动率的贡献来看,对数据整体波动率贡献最大的前四个变量分别为25.24%、16.74%、12.@ >85% 和 11.76%,均大于 10%。考虑到后两者影响较小,并尽量简化模型输入,选择了最重要的两个变量。最终变量个数确定后,通过主成分分析对数据进行降维,降维后得到两个新的数据序列。

变量分析

为了便于识别,将降维后的变量序列称为principalcomponent1和principalcomponent2。对原始基本数据变量进行编码:fx 为美国 10 年期国债收益率; realfx 是美国 10 年期国债的实际收益率; Dollarindex 是美元指数; vixindex 是 VIX 恐慌指数; lossjob 是美国的失业率; offarm 是美国新的非农就业人数; uscpi 是美国的月度 CPI; usppi 是美国 PPI 的环比; uspmi 是美国 ISM 制造业 PMI; balancedata 是中央银行和其他机构的黄金需求。

图为原始变量与降维后变量的关系(绝对值)

从上图可以看出,降维后与数据密切相关的变量是美国10年期国债收益率、美国10年期国债实际收益率、美国CPI和PPI,和其他数据。在10个基本变量中,以上4个变量对其他变量的影响较大。实际分析中,美国10年期国债收益率与美国10年期国债实际收益率具有较高的相关性,CPI和PPI的长期走势趋于统一。因此,对基本面影响较大的两个变量可以概括为美国10年期国债收益率和CPI。中央银行和其他机构的黄金需求等一些数据的发布频率较低。数据处理后整体波动不大,减弱了其对其他变量的影响。虽然美元指数和VIX指数的发布频率更高,但它们对基本面数据的整体影响相对较小。

数据回测

对两个变量进行降维处理,构建与黄金价格的关系,更直接的思路是给两个变量赋权重,构建一个包含两个变量的线性变量。

复合变量被设计为与黄金期货价格正相关的变量。从原始变量与降维后变量的关系图可以看出,principalcomponent1与10年期美国国债收益率的相关性较高,因此可以判断其与价格呈负相关金子的; principalcomponent2 与美国 CPI 和 PPI 相关。较高,由此可以判断其与金价呈正相关。但是在构造变量的时候,不能简单的做权重分布,还要考虑方向。

黄金量化交易策略_事件驱动策略量化研究系列专题 此时无声胜有声_博易大师交易量化交易

图为降维后变量的变化趋势

由于前一阶段数据经过Z-Score处理,数据本身具有均值恢复的特点,类似于布林带指标,设置了一个阈值,当综合指标低于倒数时门槛之高,做多黄金期货;当指标高于阈值时做空黄金期货。为充分反映趋势,做多时,综合指数高于门槛平仓;做空时,当综合指标低于阈值倒数时,平仓。

在数据回测中,使用黄金期货指数,资金不杠杆,策略开平仓率设置为0.02%。数据结果仅供投资者参考。年化波动率用于控制净收益值的位置。控制目标是年化波动率 10%。收入趋势如下:

图为收益净值及持仓后净值

这种量化策略在过去 10 年中交易了 58 次,其中 38 个多头头寸和 20 个空头头寸。保持时间波动很大。最近的一笔交易是在 2019 年 6 月 10 日做多,并且一直持有多头头寸。 无持仓策略年化收益率8.22%,最大回撤23.20%;持仓后年化收益率7.15%,最大回撤10.36%。

总结

本文对黄金期货的基本面数据进行分析,提取对黄金影响较大的10个基本面变量黄金量化交易策略,利用主成分分析对数据进行降维,利用降维后的新变量构建黄金的量化时序期货策略。

通过数据回测,作者发现黄金在基本面数据上的量化时机(采用量化的方法,通过各种宏观和微观指标的量化分析,试图找出影响大盘走势的关键信息)一定程度上,在没有杠杆的情况下,整体年化收益率在7%以上。数据降维后,研究发现黄金基本面数据的核心影响因素是美国10年期国债收益率和CPI,而美元指数和VIX指数对基本面数据的整体影响较弱。

温馨提示:交易所警告美联储:重要期权市场面临压力。具体操作请关注金投网APP。市场瞬息万变,投资需谨慎,操作策略仅供参考。