R语言POT超阈值模型和极值理论分析

POT模型其主要动机是为高洪水流量的概率模型提供实用工具。但是,EVT的优势在于结果不取决于要建模的过程。因此,人们可以使用POT来分析降水,洪水,金融时间序列,地震等。

由Kaizong Ye,Sherry Deng撰写

POT模型其主要动机是为高洪水流量的概率模型提供实用工具。但是,EVT的优势在于结果不取决于要建模的过程。因此,人们可以使用POT来分析降水,洪水,金融时间序列,地震等

特征

POT软件包可以执行单变量和双变量极值分析;一阶马尔可夫链也可以考虑。例如,目前使用18个 估算器拟合(单变量)GPD  。这些估算器依靠三种不同的技术:

  • 极大似然:MLE,LME,MPLE
  • 动量法:MOM,PWM,MED
  • 距离最小化:MDPD和MGF估计器。
×

估计VaR有两类主要的方法,非参数(Nonparametric)方法和参数(parametric)方法。非参数方法基于历史收益率数据或者模拟收益率数据的分布,来获得对VaR的估计。参数方法则通过对于收益率随机变量的分布类型和参数做出估计,通过分布函数(概率密度函数)来对VaR做出估计。非参数方法由于样本数据的随机性以及尾部数据的稀少性,从而对于极端损失的估计不够精确。参数方法中的分布函数是对于全部收益率数据的一种数学概括,往往这种概括并不能很好地描述尾部的情况。作为对上述两类方法的结合,极值理论(Extreme Value Theory)以尾部(亏损)区域的收益率数据为基础,先估计出尾部数据的分布函数(概率密度函数),再利用分布函数对VaR做出估计。由于分布函数是基于尾部数据得到的,所以对于VaR的预测也更加地准确。

例如,收集从1960年到1987年10月16日期间的S&P 500指数的日收益率数据,然后找出每一年的最大的日亏损率数据,一共有28个数据点(极端亏损数据),其中最大的单日跌幅为6.7%。以Frechet分布来拟合28个亏损数据点,得到具体的分布函数。然后根据所得到的分布函数,可以求出置信水平为98%的VaR为24%,也就是说预计每50年里有1年会出现单日跌幅超过24%的情况,根据分布函数所预测的极端损失(24%)远远高于经验数据所反映的极端损失(6.7%)。在休市两天以后,1987年10月19日,美国股市崩溃,S&P 500指数单日跌幅超过20%。从中可以看到,极值理论对于尾部损失预测的可靠性较高。

极端亏损数据的采集方式有两种,一种称为Peaks over Threshold (POT)方法,另一种称为Block Maxima (BM)方法。POT方法选定一个门槛亏损率,然后将收益率经验数据中所有亏损幅度超过门槛收益率的数据保留下来,作为拟合尾部分布的数据基础。

BM方法将所有的收益率数据根据时间顺序排列,并根据固定的间距分成许多组,然后从每一组中选出最大值(亏损为正数,收益为负数),将选出的数据点作为拟合尾部分布的数据基础。

极端数据的采集方式不同,在此基础上拟合的分布类型也不同。POT方法采集的数据,用Generalized Pareto分布进行拟合; BM方法采集的数据,用Generalized Extreme Value分布来拟合。在分布参数的选择时,需要考虑到损失数据的肥尾现象。


与单变量情况相反,没有用于对超过阈值的双变量超出进行建模的有限参数化。POT允许对双变量GPD进行6种参数化:对数模型,负对数模型和混合模型-以及它们各自的不对称版本。

最后,可以使用二元GPD拟合一阶马尔可夫链,以实现两个连续观测值的联合分布。

在本节中,我们明确介绍了软件包中一些最有用的功能。 但是,对于完整的描述,用户可能希望查看软件包的小插图和软件包的html帮助。

绘图用于单变量和双变量情况的通用函数:


热门课程

R语言数据分析挖掘必知必会

面对扑面而来的数据浪潮,包含Google、Facebook等国际企业,都已采用R语言进行数据分析

探索课程

返回等级图:


绘制密度



绘制Pickands的依赖函数:
 


光谱密度图



对数似然(分位数)


##对数似然(参数):


可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498