最近我们被客户要求撰写关于分析高频金融数据波动率的研究报告。在学术界和金融界,分析高频财务数据的经济价值现在显而易见。
它是每日风险监控和预测的基础,也是高频交易的基础。为了在财务决策中高效利用高频数据,高频时代采用了最先进的技术,用于清洗和匹配交易和报价,以及基于高收益的流动性的计算和预测。
高频数据的处理
在本节中,我们讨论高频金融数据处理中两个非常常见的步骤:(i)清理和(ii)数据聚合。
可下载资源
> dim(dataraw);
[1] 48484 7
> tdata$report;
initial number no zero prices select exchange
48484 48479 20795
sales condition merge same timestamp
20135 9105
> dim(afterfirstclean)
[1] 9105 7
波动(volatility)在投 资 组 合 选 择、风 险 价 值 计 算等投资决策和管理中具有重要的作用,波动的建模和预测一直是金融计量经济学研究的重点和热 点。金融理论和实践中常采用资产价格的方差或者 条 件 方 差 作 为 波 动 计 量。 自 回 归 条 件 异 方 差 (ARCH)模型和随 机 波 动(SV)模型 是 最 为 常 见 的 波动模型,用于日交易频率或者更低交易频率风险 资产价格的建模和预测。随着资产价格日内高频交 易数据的获取,实际波动率或已实现波动 RV(realizedvolatility) 作为日波动的无偏和一致估计得到广泛应用。
波动模型设定包括收益模型(也称为一阶矩模 型)设定和波动模型(也称为二阶矩模型)设定。尽 管在二阶矩 模 型 中 加 入 RV 比传 统 GARCH 模型 具有更 好 的 波 动 预 测 效 果,已 实 现 GARCH 模 型 (包括 已 实 现 EGARCH 模型)和 HEAVY 模型 存 在两个不足:一是将一阶矩模型中收益分布设定为 正态分布,将二阶矩模型中已实现波动设定为对数 正态分布,不能充分刻画收益分布和已实现波动的 厚尾性;二是在波动模型中引入 RV 的方式较为随 意(adhoc),缺乏准则和理论基础。
高频数据的汇总
通常不会在等间隔的时间点记录价格,而许多实际波动率衡量方法都依赖等实际间隔的收益。有几种方法可以将这些异步和/或不规则记录的序列同步为等距时间数据。
最受欢迎的方法是按照时间汇总,它通过获取每个网格点之前的最后价格来将价格强制为等距网格。
> # 加载样本价格数据
> data("sample");
> # 聚合到5分钟的采样频率:
> head(tsagg5min);
PRICE
2008-01-04 09:35:00 193.920
2008-01-04 09:40:00 194.630
2008-01-04 09:45:00 193.520
2008-01-04 09:50:00 192.850
2008-01-04 09:55:00 190.795
2008-01-04 10:00:00 190.420
> # 聚合到30秒的频率:
> tail(tsagg30sec);
PRICE
2008-01-04 15:57:30 191.790
2008-01-04 15:58:00 191.740
2008-01-04 15:58:30 191.760
2008-01-04 15:59:00 191.470
2008-01-04 15:59:30 191.825
2008-01-04 16:00:00 191.670
在上面的示例中,价格被强制设置为5分钟和30秒的等距时间网格。此外,aggregates函数内置于所有已实现的度量中,可以通过设置参数align.by和align.period来调用该函数。在这种情况下,首先将价格强制等间隔的常规时间网格,然后根据这些常规时间段内执行观察值的收益率来计算实际度量。这样做的优点是,用户可以将原始价格序列输入到实际度量中,而不必担心价格序列的异步性或不规则性。
带有时间和波动率计算的价格示例:
> #我们假设stock1和stock2包含虚拟股票的价格数据:
> #汇总到一分钟:
> Price_1min = cbind(aggregatePrice(stock1),aggregatePrice(stock2));
> #刷新时间聚合:
refreshTime(list(stock1,stock2));
> #计算跳跃鲁棒的波动性指标
> #基于同步数据
rBPCov(Price_1min,makeReturns=TRUE);
> #计算跳跃和噪声鲁棒的波动性度量
> #基于非同步数据:
实际波动性度量
高频数据的可用性使研究人员能够根据日内收益的平方来估计实际波动性(Andersen等,2003)。实际上,单变量波动率估计的主要挑战是应对(i)价格的上涨和(ii)微观结构噪声。因此多变量波动率估计也引起了人们的注意。高频软件包实施了许多新近提出的实际波动率方法。
下面的示例代码说明了日内周期的估计:
> #计算并绘制日内周期
> head(out);
returns vol dailyvol periodicvol
2005-03-04 09:35:00 -0.0010966963 0.004081072 0.001896816 2.151539
2005-03-04 09:40:00 -0.0005614217 0.003695715 0.001896816 1.948379
2005-03-04 09:45:00 -0.0026443880 0.003417950 0.001896816 1.801941
波动性预测
学术研究人员普遍认为,如果进行适当的管理,对高频数据的访问将带来优势,可以更好地预测未来价格变化的波动性。早在2003年Fleming等人(2003年)估计,投资者将愿意每年支付50到200个点,来预测投资组合绩效的收益,这是通过使用高频收益率而不是每日收益率来进行波动率预测的。
尽管HAR和HEAVY模型的目标相同,即对条件波动率进行建模,但它们采用的方法不同。
HAR模型专注于预测收盘价变化。HAR模型的主要优点是,它易于估计(因为它本质上是一种可以用最小二乘方估计的线性模型), HEAVY模型的主要优点在于,它可以模拟收盘价和收盘价的条件方差。此外,HEAVY模型具有动量和均值回归效应。与HAR模型相反,HEAVY模型的估计是通过正态分布的最大似然来完成的。接下来的本文更详细地介绍HAR模型和HEAVY模型,当然还要讨论并说明如何使用高频收益率来估计这些模型。
HAR模型
示例
将HARRV模型拟合到道琼斯工业指数,我们加载每日实际波动率。
> #每天获取样本实际波动率数据
> DJI_RV = realized$DJI; #选择 DJI
> DJI_RV = DJI_RV[!is.na(DJI_RV)]; #删除缺失值
第二步,我们计算传统的异构自回归(HAR)模型。由于HAR模型只是线性模型的一种特殊类型,因此也可以通过以下方式实现:harModel函数的输出是lm的子级harModel lm,线性模型的标准类。图绘制了harModel函数的输出对象,水平轴上有时间,在垂直轴上有观察到的实际波动率和预测的实际波动率(此分析是在样本中进行的,但是模型的估计系数可以显然用于样本外预测)。从图的检查中可以清楚地看出,harModel可以相对快速地拟合波动水平的变化,
[1] "harModel" "lm"
> x;
Model:
RV1 = beta0 + beta1 * RV1 + beta2 * RV5 + beta3 * RV22
Coefficients:
beta0 beta1
4.432e-05 1.586e-01
r.squared adj.r.squared
0.4679 0.4608
> summary(x);
Call:
"RV1 = beta0 + beta1 * RV1 + beta2 * RV5 + beta3 * RV22"
Residuals:
Min 1Q Median 3Q Max
-0.0017683 -0.0000626 -0.0000427 -0.0000087 0.0044331
Coefficients:
Estimate Std. Error t value Pr(>|t|)
beta0 4.432e-05 3.695e-05 1.200 0.2315
beta1 1.586e-01 8.089e-02 1.960 0.0512 .
beta2 6.213e-01 1.362e-01 4.560 8.36e-06 ***
beta3 8.721e-02 1.217e-01 0.716 0.4745
---
Signif. codes: 0 ^a˘ A¨ Y***^a˘ A´ Z 0.001 ^a˘ A¨ Y**^a˘ A´ Z 0.01 ^a˘ A¨ Y*^a˘ A´ Z 0.05 ^a˘ A¨ Y.^a˘ A´ Z 0.1 ^a˘ A¨ Y ^a˘ A´ Z 1
Residual standard error: 0.0004344 on 227 degrees of freedom
Multiple R-squared: 0.4679, Adjusted R-squared: 0.4608
F-statistic: 66.53 on 3 and 227 DF, p-value: < 2.2e-16
HARRVCJ模型拟合
估计harModel的更复杂版本。例如,在Andersen等人中讨论的HARRVCJ模型。可以使用示例数据集估算,如下所示:
> data = makeReturns(data); #获取高频收益数据
> x
Model:
sqrt(RV1) = beta0 + beta1 * sqrt(C1) + beta2 * sqrt(C5) + beta3 * sqrt(C10)
+ beta4 * sqrt(J1) + beta5 * sqrt(J5) + beta6 * sqrt(J10)
Coefficients:
beta0 beta1 beta2 beta3 beta4 beta5
-0.8835 1.1957 -25.1922 38.9909 -0.4483 0.8084
beta6
-6.8305
r.squared adj.r.squared
0.9915 0.9661
最后一个示例是仅将日内收益作为输入就可以估算的一种特殊类型HAR模型。
HEAVY模型
将HEAVY模型拟合到道琼斯工业平均指数。第一步,我们加载道琼斯工业平均指数。然后,我们从该库中选择每日收益和每日实际核估计(Barndorff-Nielsen等,2004)。现在,作为HeavyModel输入的数据矩阵的第一列为收益率,第二列为Realized Kernel估计值。我们进一步将参数设置为采样期内日收益率和平均实际核估计方差。现在,我们来估算HEAVY模型。根据模型的输出,图绘制了由模型中的第二个方程式估算的条件方差。
> # heavy模型在DJI上的实现:
> returns = returns[!is.na(rk)]; rk = rk[!is.na(rk)]; # 删除NA
> startvalues = c(0.004,0.02,0.44,0.41,0.74,0.56); #初始值
> output$estparams
[,1]
omega1 0.01750506
omega2 0.06182249
alpha1 0.45118753
alpha2 0.41204541
beta1 0.73834594
beta2 0.56367558
流动性
交易量和价格
由于交易量和价格可能会收到不同的报告滞后影响,因此这不是一个简单的操作(Leeand Ready 1991)。
交易量和价格通常作为单独的数据对象提供。对于许多与交易数据有关的研究和实际问题,需要合并交易量和价格。
函数matchTradesQuotes可用于匹配交易量和价格。根据Vergote(2005)的研究,我们将价格设置为2秒作为默认值。
流动性衡量
可以使用函数tqLiquidity根据匹配的交易量和价格数据计算流动性指标。表中计算了主要实现的流动性衡量指标,并且可以用作函数tqLiquidity的参数。
以下示例说明了如何:(i)匹配交易和报价,(ii)获取交易方向,以及(iii)计算流动性衡量指标。
> #加载数据样本
> #匹配交易量和价格数据
> tqdata = matchTradesQuotes(tdata,qdata);
> #在tqdata中显示信息
> colnames(tqdata)[1:6];
[1] "SYMBOL" "EX" "PRICE" "SIZE" "COND" "CORR"
> #根据Lee-Ready规则推断的交易方向
> #计算有效价差
> es = tqLiquidity(tqdata,type="es");
可下载资源
关于作者
Kaizong Ye是拓端研究室(TRL)的研究员。在此对他对本文所作的贡献表示诚挚感谢,他在上海财经大学完成了统计学专业的硕士学位,专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。
本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。
非常感谢您阅读本文,如需帮助请联系我们!