标准化发病率（SIR）或死亡率（SMR）是观察病例和期望病例的比率。

由Kaizong Ye，Coin Ge撰写

观察到的病例是队列中病例的绝对数量。期望病例是通过将队列中的人-年数与参考人口比率相乘得出的。

简介

该比率应按混杂因素进行分层或调整。通常这些因素是年龄组、性别、日历期和可能的癌症类型或其他混杂变量。也可以使用社会经济地位或地区变量。

可下载资源

完整程序、数据和文档（word）

在参考人口中，第j层的期望比率是λj=dj/nj，其中dj是观察到的病例，nj是观察到的人年。现在SIR可以写成一个比率

标化发病比（SIR）=实际观察发病人数/期望发病人数

　率的标准化法，就是在一个指定的标准构成条件下进行率的对比的方法。当我们对两个频率指标进行比较时，应该注意这两组（或两组以上）对象内部构成是否存在差别足以影响分析结果，如果存在的话，可应用标准化法加以校正。这种经标准化校正后的率，称为标准化率，简称标化率(standardized rate)。

率的标准化法有直接法的间接法。

或　标化死亡比（SMR）=实际观察死亡人数/期望死亡人数

其中D是队列人群中的观察病例，E是期望数。单变量置信区间是基于泊松分布的精确值，P值的公式为

建模的SIR是一个泊松回归模型，有对数连接和队列人-年作为偏移。

在泊松模型的SIR中可以用似然比检验来检验SIR的同质性。

同样的工作流程适用于标准化的死亡率。

样条曲线

可以为时间变量（如年龄组）拟合一个连续的样条函数。曲线的想法是平滑SMR估计值，并从曲线图中进行推断。这需要预定义的结点/节点，用于拟合样条曲线。选择结的数量和结的位置是一个非常主观的问题，有三个选项可以将样条曲线结传递给函数。

在不同的结点设置之间进行尝试是很好的做法，以获得真实的样条曲线估计。过度拟合可能会在估计中造成假象，欠拟合可能会使模式变得平滑。

样条曲线变量应该是尽可能连续的，例如从18到100个时间点。但是，当把时间分割成太窄的区间时，在期望或人口比率值中可能会出现随机的变化。因此，也可以为年龄或时期做两个变量：第一个是用于标准化的较宽区间，第二个是用于拼接的窄区间。

课程

R语言数据分析挖掘必知必会

从数据获取和清理开始，有目的的进行探索性分析与可视化。让数据从生涩的资料，摇身成为有温度的故事。

立即参加 ➜

结点

有三个选项可用于为样条曲线指定结点。

每个样条曲线变量的结数的向量。节点数量包括边界节点，因此最小的节点数量是2，这是一个对数线性关联。节点是利用观察到的样例的量纲自动放置的。
预定义结点的向量列表。矢量的数量需要与样条曲线变量的长度相匹配。每个向量至少要有边界结点的最小值和最大值。
NULL将根据AIC自动找到最佳结点数量。节点是根据观察到的案例的数量级来放置的。这通常是一个开始拟合过程的合理初始值。

结的数量和结的位置可以在输出中找到。

SMR

死亡率、外部队列和数据

估计一个女性直肠癌患者队列的SMR。每个年龄段、时期和性别的死亡率都可以在数据集中找到。

SMR( status, birthdate, exitdate, entrydate ,  rate = 'haz', print ='fot')

其他原因的SMR在两个随访区间都是1。此外，P值表明SMR估计值之间没有异质性（P=0.735）。

总死亡率可以通过修改状态参数来估计。现在我们要计算所有的死亡，即状态为1或2。

smr(  status = status %in% 1:2)

现在随访区间的估计值似乎有很大的不同，P=0。绘制SMR。

plot(se)

最受欢迎的见解

1.R语言多元Logistic逻辑回归应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归（PLSR）和主成分回归（PCR）

4.R语言泊松Poisson回归模型分析案例

5.R语言混合效应逻辑回归Logistic模型分析肺癌

6.r语言中对LASSO回归，Ridge岭回归和Elastic Net模型实现

7.R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

8.python用线性回归预测股票价格

9.R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

样条曲线

让我们用两个不同的选项来拟合后续时间和年龄组的样条：样条在不同的模型和同一模型中被拟合，splines。

smrspline(data, rate = 'haz', 
                 spline )

plot(sf)

R语言泊松Poisson回归模型预测人口死亡率和期望寿命

阅读文章

plot(st, col=4, log=TRUE)

随时关注您喜欢的主题

在从属样条曲线中，fot是以零时间为参考点的比率。参考点可以被改变。这里假设每个随访时间的年龄组情况是相同的。从0到10年的随访，SMR是0.2倍。

也可以对样条曲线进行分层。例如，我们把死亡时间分成两个时间段，并测试年龄组的样条是否相等。

year. <- ifelse(year < 2002, 1, 2)

对于2002年以前的类别，50岁以后的SMR似乎更高。另外，P值（<0.0001）表明，2002年之前和之后的年龄组趋势存在差异。

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。在此对他对本文所作的贡献表示诚挚感谢，他在上海财经大学完成了统计学专业的硕士学位，专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！

R语言样条曲线、泊松回归模型估计女性直肠癌患者标准化发病率（SIR）、标准化死亡率（SMR）

简介

样条曲线

结点

SMR

死亡率、外部队列和数据

样条曲线

R语言泊松Poisson回归模型预测人口死亡率和期望寿命

随时关注您喜欢的主题

相关文章

R语言样条曲线、泊松回归模型估计女性直肠癌患者标准化发病率（SIR）、标准化死亡率（SMR）

简介

样条曲线

结点

SMR

死亡率、外部队列和数据

样条曲线

R语言泊松Poisson回归模型预测人口死亡率和期望寿命

随时关注您喜欢的主题

相关文章

关注我们，永远不要错过任何见解。