阈值模型用于几个不同的统计领域,而不仅仅是时间序列。
总体思路是,当一个变量的值超过一定的阈值时,一个进程可能会有不同的表现。也就是说,当值大于阈值时,可能会应用不同的模型,而不是在阈值以下。
可下载资源
例如,在药物毒理学应用中,可能低于阈值量的所有剂量都是安全的,而随着剂量增加到阈值量以上,毒性增加。或者,在动物种群丰富度研究中,人口可能会缓慢增加至阈值大小,但一旦人口超过一定规模后可能会迅速减少(由于食物有限)。
阈值模型是区域切换模型(RSM)的特例。在RSM建模中,不同的模型适用于某些关键变量的不同值的间隔。
课程
以问题导向的方式使用R语言进行销售时间序列预测。从数据获取和清理开始,有目的的进行探索性分析建模与可视化。让数据从生涩的资料,摇身成为有温度的故事。
本文讨论了单变量时间序列的阈值自回归模型(TAR)。在TAR模型中,AR模型是根据由因变量定义的两个或更多值的区间单独估算的。这些AR模型可能有也可能不是相同的顺序。为了方便起见,通常假设它们的订单是相同的。
文本仅考虑单个阈值,以便将有两个单独的AR模型 – 一个用于超出阈值的值,另一个用于不包含的值。困难在于确定对TAR模型的需求,使用的阈值以及AR模型的顺序。TAR模型可能工作的一个数据特征是,当数值高于某个水平时,增加和/或减少的速率可能会不同于数值低于该水平时的速率。
阈值水平的估计或多或少是主观的。许多分析师探索了几个不同的阈值水平,试图提供一个很好的数据拟合(以MSE值和残差的一般特征衡量)。AR模型的顺序也可以是试错性考察,特别是当数据的固有模型可能不是AR时。一般来说,分析师从他们认为可能高于必要的水平开始,然后根据需要减少订单。
第一步 绘制数据。
以下是数据的时间序列图。
请注意急剧增加(和减少)的时间段。 以下是第一批差异的时间序列图。
与原始数据一致,我们发现在某些时段急剧增加和减少。经过一些实验后, 决定对两个区域使用单独的AR(4)模型:第一个差异大于或等于.05的数据和第一个差异小于.05的数据。
该模型符合得很好,作为以下图的证据 – 残差的ACF和PACF以及比较实际的第一差异与预测的第一差异的图。在比较实际值和预测值的图中,预测值沿着红色虚线。
R代码示例
这个例子的R代码如下。在ts.intersect 命令中,lag(,)命令创建滞后,输出的矩阵将不包含缺少值的行。在代码中,我们对所有数据进行AR(4)模型的回归拟合,以便设置将用于单独制度回归的变量。另请注意,阈值在命令c = .05中定义。 代码将执行两次回归,确定残差以及它们的acf / pacf,并创建实际值和预测值的图表。
可下载资源
关于作者
Kaizong Ye是拓端研究室(TRL)的研究员。在此对他对本文所作的贡献表示诚挚感谢,他在上海财经大学完成了统计学专业的硕士学位,专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。
本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。
非常感谢您阅读本文,如需帮助请联系我们!