R语言区间数据回归分析

回归分析是一种十分常见的数据分析方法,通过观测数据确定变量间的相互关系。传统回归分析以点数据为研究对象,预测结果也是点数据,而真实数据往往在一定范围内变动的。

基于置信度可以形成置信区间,一定程度弥补了预测值为单点的不足,但将点数据作为研究对象,以点带表某范围内的所有数据,往往存在信息丢失的问题.

区间回归分析是一种以区间数为研究对象的数据分析方法.区间数能反映出数据的变动范围,更符合现实情况.区间型符号数据是区间数的一种,通过”数据打包”形成,因此除具有区间端点信息外,还具有区间内部散点信息.

本文解释如何在R里对有区间变量的情况下提取上下限值。让我们从生成数据开始,


热门课程

R语言数据分析挖掘必知必会

面对扑面而来的数据浪潮,包含Google、Facebook等国际企业,都已采用R语言进行数据分析

探索课程

假设现在我们不再观察实变量xx,而只是观察一个类(我们将创建八个类,每个类有八分之一的观察值)

例如,对于第一个值,我们有

要提取有关这些边界的信息,我们可以使用以下代码,该代码返回区间的下限,上限

我们可以检查我们的第一个观察

我们可以在数据库中创建三个附加变量

我们可以比较4个回归(i)我们对8个类别进行回归,即我们的8个因子(ii)我们对区间的下限进行回归,(iii)对区间的“平均值”值进行回归(iv)上限

我们可以将预测与我们的四个模型进行比较

更进一步,我们还可以比较模型的AIC,

如果下限值和上限的使用不是确定性的,则应注意,使用区间的平均值会比使用8个因素得到更好的结果。


可下载资源

​非常感谢您阅读本文,如需帮助请联系我们!


关于作者

Kaizong Ye拓端研究室(TRL)的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。


 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498