此示例基于电视节目的在线收视率。我们将从抓取数据开始。

由Kaizong Ye，Coin Ge撰写

分析的系列是亚伦·索尔金 (Aaron Sorkin) 的 _《_白宫风云_》_。

可下载资源

# 加载软件包。
packages <- c("gplot2", "MASS", "reshpe", "splnes", 
    "XML")

原理简单说明：

Cubic Splines 认为在 x 在[a, b]区间中，y对应是一条平滑的曲线，所以 y = f(x); 的一阶导函数和二阶导函数是平滑连续可导的。

拟定用三次方程，所以得出了一般的三次方程和一阶导数方程和二阶导数方程。

然后求各个分部的解。

if (!fle.eiss(fie)) {
    # 解析HTML内容。
    html <- htmlPrse(lis?si=17ectn=a")
    # 根据id选择表格。
    tml <- pahppl(html, //tal\[@d='Tle'\]"\[1\] ?
    # 转换为数据集。
    da <- reHTML(hml)
    # 第一个数据行。
    head(da )
    # 保存本地副本。
    write.csv(ata\[, -3\], fle)

# 读取本地副本
daa <- red.sv(fie)
# 检查结果
str(dat)

Mean 是每集的平均评分，所以我们有一个参数， Count 是每集的投票数，所以我们有一个样本大小。使用标准误差方程，我们将计算每个评分的“误差幅度”。请注意，由于有几集收视率非常高，因此收视率分布不正常。

课程

R语言数据分析挖掘必知必会

从数据获取和清理开始，有目的的进行探索性分析与可视化。让数据从生涩的资料，摇身成为有温度的故事。

立即参加 ➜

# 计算季
daa$saon <- 1 + (daX - 1)%/%22
# 特殊情况
at$sasn\[which(dta$sesn > 7)\] <- c(7, NA)
# 因子变量
daa$saon <- fator(aa$sesn)

我们对数据采取的最后一步是添加季编号，以便以后能够在绘图上区分它们。除了两个特例（最后一季有 23 集，一个节目是电影特辑）外，_《_白宫风云_》_每一季都有 22 集。我们使用除以 22 的余数来计算季，修复特殊情况，并将变量分解为绘图目的。

# 计算季 
asaon <- 1 + (aX - 1)%/%22
#  特殊情况
dtseson\[wich(dtsasn > 7)\] <- c(7, A)
# 因子变量
dtseson <- fctor(dasasn)

最后的图使用 95% 和 99% 的置信区间来可视化不确定性。

qlot(dta =dat, x = X, y = mu, clr =sasn, gem = "pont") + 
  genge(es(yin = u - 1.96\*se, ymx = u + 1.96\*se), alpa = .5) +
  golie(as(yin =mu - 2.58\*se, yax = mu + 2.58\*e), apa = .5) +

该图对于每个季节的平均收视率会更有用，这些收视率很容易用该ddply() 函数检索。还计算了最小和最大集数，以便能够绘制每个季节的水平段。由于我们将之前的绘图保存为 ggplot2 对象，因此添加线条只需要对额外的图形元素进行编码并将其添加到保存的元素之上。

# 计算季平均值。
men <- dply(daa,.(easn), summrs, 
      ma = mean), 
      xmi= in(X, 
      xmx = ma(X)
# 将平均值添加到绘图中。
g + go_eme(daa = eas, 
                as( xmin, max,  = mean, en= man))

变化点检测算法

如果您的目标是找到系列中的突然变化，请使用变化点检测算法。

最受欢迎的见解

1.R语言多元Logistic逻辑回归应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归（PLSR）和主成分回归（PCR）

4.R语言泊松Poisson回归模型分析案例

5.R语言混合效应逻辑回归Logistic模型分析肺癌

6.r语言中对LASSO回归，Ridge岭回归和Elastic Net模型实现

7.R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

8.python用线性回归预测股票价格

9.R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

# PELT算法计算变化点。
p <- tmean(atamu, 'PELT')
# 提取结果。
xmin <- c(0, max\[-legh(xmax)\])
# 绘图。
gem_segnt(dat = eg)

R语言里的非线性模型：多项式回归、局部样条、平滑样条、广义相加模型GAM分析

阅读文章 ➜

平滑算法：LOESS(局部加权回归)和三次样条

现在让我们平滑这个系列。基本图都将使用相同的数据，我们将在其上叠加一条通过不同方法计算的趋势线。

随时关注您喜欢的主题

# 绘图
 plot(data 
          x = X,
          y = mu,
          alpa = I0.5),
          gom = line")

平滑数据的最简单方法是使用局部多项式，我们将其应用于每个季节的分数，然后应用于它们的去趋势值。更复杂的平滑方法使用 splines 。它仅用于最后一个图中。

# 每一季的LOESS平滑
 
  LOESS(se = FALSE) + 
  goln(y = tmu,neyp= dhe"+
as(colo = sason)

# 对去趋势的数值进行LOESS平滑处理
  smooth(se = FALSE) + 
  eoin(es =memu)), itype = ") +

# 立方样条
g + 
  smooth( "m", ns(x, 8)

三次样条提供的信息与我们从变化点检测中了解到的情况几乎相同：该系列有三个时期，是由于观众收视率的一次下降。

# 三次样条和变化点
gmoth(method =  ~ ns(x, 8))

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。在此对他对本文所作的贡献表示诚挚感谢，他在上海财经大学完成了统计学专业的硕士学位，专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！

R语言平滑算法LOESS局部加权回归、三次样条、变化点检测拟合电视节目《白宫风云》在线收视率

变化点检测算法

R语言里的非线性模型：多项式回归、局部样条、平滑样条、广义相加模型GAM分析

平滑算法：LOESS(局部加权回归)和三次样条

随时关注您喜欢的主题

三次样条提供的信息与我们从变化点检测中了解到的情况几乎相同：该系列有三个时期，是由于观众收视率的一次下降。

相关文章

R语言平滑算法LOESS局部加权回归、三次样条、变化点检测拟合电视节目《白宫风云》在线收视率

变化点检测算法

R语言里的非线性模型：多项式回归、局部样条、平滑样条、 广义相加模型GAM分析

平滑算法：LOESS(局部加权回归)和三次样条

随时关注您喜欢的主题

三次样条提供的信息与我们从变化点检测中了解到的情况几乎相同：该系列有三个时期，是由于观众收视率的一次下降。

相关文章

关注有关新文章的微信公众号

R语言里的非线性模型：多项式回归、局部样条、平滑样条、广义相加模型GAM分析