麦肯锡风格响应式模板

Python梯度提升树、SHAP与递归特征消除构建血栓风险分级预测模型

2026年5月8日 | 报告

静脉血栓栓塞症（VTE）构成严峻的公共卫生挑战，早期识别高风险个体是防控关键。

Jiehao Chen

在此对 Jiehao Chen 对本文所作的贡献表示诚挚感谢，他在浙江财经大学完成了应用数学与统计专业的学位，专注机器学习、数据采集与处理领域。擅长Python，在数据分析与挖掘方面有深入研究。曾在多个行业的数据咨询项目中负责算法实现与模型优化，尤其在金融、医疗健康领域的数据驱动决策方面积累了丰富的实战经验。

联系我们

成为新会员获取本项目完整报告、代码和数据资料

加入会员群

本研究利用临床检验数据集（28,140条记录，214项特征），构建了一套基于梯度提升决策树（Gradient Boosting）的血栓风险预测模型。面对显著的类别不平衡（阳性率约11.7%），项目对比了五种集成学习模型，选定梯度提升树为最优基模型（AUC达0.74，召回率可配置至90%以上）。进一步，融合SHAP可解释性分析与递归特征消除（RFE）算法，将特征空间精简至113维。在此基础上，我们设计了一种结合SHAP权重与医学检验偏离度的五级风险分级模型，将血栓风险精细化地划分为低、中低、中、中高与极高五个层次。整套方案实现了从数据预处理、模型筛选、特征工程到风险分级应用的全流程闭环，为临床辅助决策提供了一种可解释、可落地的技术参考。本文详述了研究方法、代码实现与实证发现。

本项目完整报告、代码和数据资料

下载资料(17页)

关键词：血栓风险预测；梯度提升树；SHAP；特征选择；风险分级；类别不平衡

在数据驱动的循证医学时代，如何从海量临床检验数据中提炼出有价值的决策洞见，是机器学习技术走向实践的核心命题。我们团队作为算法与数据挖掘领域的深耕者，常年聚焦于将这些前沿技术转化为解决具体业务挑战的定制化方案。本文内容即源于我们此前协助一个医疗机构完成的风险评估咨询项目，其目标是利用患者的常规检验指标，构建一个自动化、高召回的血栓风险筛查系统。这不仅是技术落地的一次典型演练，也体现了我们在此类项目上的专业交付能力。

本研究的技术路径可概括为：首先，基于严格的清洗与标准化流程处理真实世界的临床数据；其次，通过多模型对比实验，寻找在类别不平衡场景下兼顾区分度与召回率的最优算法；再次，运用SHAP和RFE技术进行特征量化和筛选，增强模型的解释性和简洁性；最后，创新性地将模型学到的特征重要性与医学检验的正常值范围结合，设计出一套直观的风险分级评分系统。全文将遵循下图所示的技术脉络展开论述。

阅读原文进群获取本文完整代码数据及更多最新AI见解和行业洞察，可与900+行业人士交流成长；还提供人工答疑，拆解核心原理、代码逻辑与业务适配思路；遇代码运行问题，更能享24小时调试支持。

侧边栏

血栓风险预测模型知识

梯度提升树（Gradient Boosting）是一种集成学习算法，通过迭代拟合残差提升预测精度。在医疗领域，SHAP值基于合作博弈论，量化每个特征对预测的平均边际贡献，增强模型可解释性。递归特征消除（RFE）则通过反复训练模型，逐步剔除最不重要特征，实现降维与优化。

本研究所用数据源自某医疗机构脱敏后的真实临床检验数据集，涵盖28,140位个体的214项特征及一个血栓二分类标签字段。图1直观展示了目标变量的分布情况，阴性样本24,855例（占比88.3%），阳性样本3,285例（占比11.7%），类别不均衡特征明显，这在模型训练阶段需被重点关注。

图1 血栓风险预测–目标变量分布

数据预处理的目的是将原始数据转换成模型可理解的、高质量的输入。该环节包含缺失值填补与异常值处理两大步骤。

缺失值填补策略：对于数值型指标，采用中位数填充，因其对极端值不敏感，能更好地维持数据分布的集中趋势；对于分类型指标，则采用众数填充。图2的热力图展示了各特征缺失值的分布状况，颜色越深代表缺失越严重。需要指出的是，若某样本的目标变量缺失，我们直接将其剔除，以保证训练信号的准确无误。

图2 特征缺失值分布热力图

异常值处理策略：我们结合医学常识与统计方法双管齐下。一方面，依据逻辑校验排除明显违背常理的记录（如血压为负值、年龄为0岁等）。另一方面，采用四分位距法（IQR）对符合以下条件的连续变量进行缩尾处理（Winsorization），将超出边界的极值替换为边界值，而非简单剔除。

[ z = |x – μ| / σ ]

（其中，( μ ) 为均值，( σ ) 为标准差。标准化后，变量服从均值为0、标准差为1的标准正态分布。）

图3展示了异常值数量最多的前20个特征的箱线图，能清晰看到各变量在数据清洗前离群点的分布情况。处理这些异常值，有助于避免模型被少量极端个案牵引，提升整体的泛化能力。

图3 关键特征异常值箱线图（IQR法–前20个异常值最多的特征）

为消除不同检验指标间量纲的巨大差异，例如某些酶的单位是U/L，而某些离子的单位是mmol/L，我们对所有数值型特征实施Z-score标准化。这一步骤对逻辑回归、梯度提升等基于距离或梯度的模型至关重要，能确保每个特征在模型训练时拥有相近的初始权重。

以下代码完整呈现了数据预处理的全过程。

阅读原文进群获取完整内容及更多AI见解、行业洞察，与900+行业人士交流成长。

完成数据清洗后，我们将数据集按 80%:20% 比例进行分层划分，生成训练集（22,512条）与测试集（5,628条），设置随机种子为42以保证过程可复现。针对类别不平衡问题，我们对比了五种内置相应处理机制的常用分类模型：

1. 平衡随机森林 (Random Forest)：通过class_weight=’balanced’参数调整。2. 梯度提升树 (Gradient Boosting)：一种强大的集成方法，通过迭代拟合残差提升精度。3. 平衡逻辑回归 (Logistic Regression)：同样使用class_weight=’balanced’。4. 极端梯度提升 (XGBoost)：通过scale_pos_weight参数处理不平衡。5. 轻量级梯度提升机 (LightGBM)：通过is_unbalance参数处理不平衡。

评估的核心指标为AUC-ROC（衡量模型整体的区分能力）与Recall（召回率，衡量找出阳性样本的能力，在临床上要求不低于80%以避免漏诊）。

我们从AUC-ROC和召回率两个核心维度出发，对各模型进行评判。图4的ROC曲线直观地描绘了各模型的分类性能，曲线越凸向左上方，代表模型性能越好。图5的柱状图则提供了精确率、召回率、F1分数等指标的数值化比较。

硕士论文深度解读：在选择模型时，不仅要看AUC，还需结合业务对Precision与Recall的权衡。例如，在本场景下，错过一个高风险病人（False Negative）的代价远高于误报（False Positive），因此我们更关注高召回模式。梯度提升模型的AUC最高（0.7417），且通过调整决策阈值，可在召回率达90.11%的水平下工作，虽然在默认阈值下其均衡模式的召回率（43.68%）和精确率（27.97%）看似不高，但通过阈值移动，它能非常灵活地适应临床需求。这体现了集成树模型在样本不平衡分类问题上的柔韧性。

图4 5种血栓风险预测模型AUC-ROC对比

图5 5种血栓风险预测模型性能指标对比

综合评估，梯度提升树模型在AUC-ROC指标上拔得头筹，且在高召回模式下能够满足临床漏诊率控制的要求，因此被选定为本研究的基础分类器。后续的特征选择与风险分级工作均围绕它展开。

以下为模型对比训练的核心代码实现。

阅读原文进群获取完整内容及更多AI见解、行业洞察，与900+行业人士交流成长。

DeepSeek、LangGraph和Python融合LSTM、RF、XGBoost、LR多模型预测NFLX股票涨跌|附完整代码数据

推荐文章引言

探索观点

对于一个拥有214个特征的高维模型，既存在冗余信息增加了计算负担，也降低了模型的可解释性。为优化模型结构，我们采用了“全局解释+递归寻优”的策略。

SHAP（SHapley Additive exPlanations）源于合作博弈论，它通过计算每个特征在每种可能的特征组合下对预测结果的“平均边际贡献”，来量化其重要性。这有点像评估一个球队（模型预测）里每个球员（特征）的价值：要看他和其他各种不同阵容组合上场时，能为球队胜率（预测准确性）带来多大的平均提升。在模型中，SHAP值能将复杂的“黑箱”预测拆解为各个特征的影响得分，实现全局与局部两个层面的可解释性。

图6展示了SHAP分析得出的对血栓风险预测贡献最大的前20个特征。从中可清晰地看到，凝血功能、肝肾功能相关指标扮演了重要角色，这与临床经验高度一致，为模型增加了可信度。

图6 SHAP Top 20 特征重要性–血栓风险预测模型

在获得特征重要性的全局排序后，我们采用递归特征消除算法来寻找最优的特征子集。RFE就像一个严格的“淘金”流程：它从完整的特征集开始，一遍遍地训练模型，每轮剔除若干最不重要的特征，直至遍历所有可能的特征数量，最终选择使模型性能（如AUC）达到峰值或平台期的最精简子集。我们采用“先粗筛（步长10），后精选（步长1）”的两阶段策略，最终将214个特征压缩至113个，在牺牲极少预测精度的前提下，显著降低了模型的复杂度。

以下是SHAP分析和RFE特征筛选的核心代码逻辑。

阅读原文进群获取完整内容及更多AI见解、行业洞察，与900+行业人士交流成长。

纯粹的二分类概率输出对临床医生而言不够直观。为此，我们设计了一个具备物理意义的“血栓风险分级分数”。该分数融合了数据驱动（SHAP特征权重）与知识驱动（医学正常值范围）两种方法，其计算逻辑如下：

分级分数 = Σ ( 特征SHAP权重 × 偏离度 )

其中，偏离度 = |检验实测值 – 正常范围中值| / 正常范围宽度。该值可以通俗地理解为某一项检验指标“跑偏”的标准化距离。某个指标越偏离正常，且该指标在模型中的权重越大，它对总分数的增加贡献就越大。这种计算方式既反映了模型从数据中学到的规律，又无需依赖复杂的深度学习网络，直接给出了符合医学直觉的异常程度解释。

基于该分数在所有患者中的分布，我们采用P20、P40、P60、P80百分位数作为切点，将风险等级化为五级：

1级（低风险，绿标）：分数 < P20 2级（中低风险，蓝标）：P20 ≤ 分数 < P40 3级（中风险，黄标）：P40 ≤ 分数 < P60 4级（中高风险，橙标）：P60 ≤ 分数 < P80 5级（极高风险，红标）：分数 ≥ P80

在论文写作中，验证结论的可靠性至关重要。本研究从以下两方面进行了稳健性检验：

1. 特征子集敏感性：对比使用全量214个特征与经RFE筛选后的113个特征，在测试集上的AUC变化幅度小于1%，说明模型性能对特征集大小并不敏感，核心信息已被保留。2. 分级分数与实际患病率的一致性：图7展示了各风险等级的样本分布。我们观察到，风险等级越高的组别，其真实阳性样本的占比也随之单调递增，1级组几乎全员阴性，5级组中阳性比例显著高于平均水平。这有力地证明了我们的分级体系不仅是一个统计游戏，而是客观捕捉到了风险梯度的存在。

图7 各风险等级样本分布对比

答辩高频问题预设：问：为什么选择分位数而不是直接拿模型输出概率来分级？答：直接使用概率作为分级依据，但概率的分布往往是非线性的，分位数分级能保证每个等级包含均衡的样本量，便于临床资源的统筹规划。同时，基于偏离度的分数设计，将模型权重和医学常识结合，比纯粹的“黑箱”概率更易被医生信任和采纳，便于在实际的诊疗流程中推广。

以下是风险分级模型构建与绘图的核心代码。

阅读原文进群获取完整内容及更多AI见解、行业洞察，与900+行业人士交流成长。

本研究通过一条完整的技术管线——从数据清洗、模型筛选、特征工程到风险分级应用，成功构建了一个可解释、高性能的静脉血栓风险预测辅助工具。

最受欢迎的见解

核心结论：

1. 模型选型：在五种对比模型中，梯度提升树综合表现最优，其AUC-ROC达0.74，且具备通过阈值调整满足高召回（>90%）临床需求的能力。2. 特征优化：结合SHAP与RFE方法，将特征集从214个精简至113个，在保证模型泛化能力不减的前提下，极大地提升了模型的可解释性与运行效率。3. 分级创新：设计的五级风险分级模型，巧妙结合了数据驱动的特征重要性与医学先验知识，输出的风险分数具有明确的临床解释，可作为一线医生进行分层诊疗的得力参考。