Python、TCA迁移成分分析融合XGBoost极限梯度提升的高速列车轴承智能故障诊断研究
在工业智能与预测性维护的交汇地带,如何让实验室里训练得近乎完美的诊断模型,在真实世界的嘈杂工况中依然保持敏锐的判断力,始终是算法从理论走向工程落地的核心瓶颈。
成为新会员获取本项目完整数据代码资料
从数据挖掘与机器学习的视角审视,这本质上是一个典型的领域自适应问题:如何将源域中学到的判别知识,在尽可能不依赖目标域标签的前提下,实现跨域稳健迁移。本文所呈现的技术方案,改编自我们过往为客户完成的某工业设备智能诊断咨询项目,其中系统性地运用了多域特征工程、迁移成分分析、集成学习与模型可解释性分析等方法,形成了一套完整的迁移诊断框架。该项目的方法论已在实际业务数据上通过校验,验证了从试验台到真实运营场景下故障知识迁移的可行性。
本文围绕这一迁移诊断框架展开,从振动信号的预处理与多维特征提取出发,经源域故障分类模型的构建与优选,到基于迁移成分分析的域适应设计,最后通过可解释性技术揭示模型决策逻辑与轴承故障物理机理的内在一致性,为标签稀缺场景下的设备智能运维提供了完整的技术参考。
本文内容改编自过往客户咨询项目的技术沉淀并且已通过实际业务校验,阅读原文进群获取完整代码数据及更多最新AI见解和行业洞察,可与900+行业人士交流成长;还提供人工答疑,拆解核心原理、代码逻辑与业务适配思路;遇代码运行问题,更能享24小时调试支持。
研究框架流程
数据预处理与多域特征提取
├── 振动信号重采样 → 小波阈值去噪 → 滑动窗分段
├── 时域特征(均值、峭度等)│ 频域特征(频谱质心等)│ 时频域特征(小波能量熵等)
└── Z-score标准化 + 分类变量独热编码
│
特征筛选与优化
├── Pearson相关性分析(去冗余)
├── ANOVA方差分析(单变量判别力)
├── 随机森林重要性(非线性贡献)
└── 多准则融合评分 → 15维优化特征子集
│
源域故障诊断建模(多模型对比)
├── K近邻 │ 逻辑回归 │ XGBoost │ 一维CNN
├── 贝叶斯超参数优化
└── 综合评价:准确率、AUC、F1值、混淆矩阵与泛化性能
│
迁移诊断框架设计
├── 迁移成分分析TCA → 域间距离减少42.02%
├── XGBoost迁移诊断模型构建
└── 高置信度样本迭代再训练 → 置信度提升至0.72
│
模型可解释性分析
├── SHAP全局重要性(轴承转速、小波能量熵等关键特征)
├── LIME局部解释(单样本决策归因)
├── t-SNE可视化(域适应前后分布对齐)
└── 故障机理关联性验证
高速列车轴承的智能故障诊断是保障列车走行系统安全稳定运行的关键技术。本文围绕试验台架数据与实车数据之间的分布差异问题,建立了一套完整的迁移诊断框架,系统性地解决了从试验台轴承数据到实际运营列车轴承数据的故障特征提取、诊断模型构建、跨域知识迁移及模型可解释性分析等一系列关键问题,为实车轴承在标签稀缺条件下的智能故障诊断提供了完整可行的解决方案。
针对数据分析与故障特征提取问题,本文结合轴承故障机理,从时域、频域和时频域三个维度系统提取了28个初始特征,并基于相关性分析、ANOVA方差分析和随机森林等多准则特征筛选方法,识别出判别能力最强的特征,进一步以该特征集为基础,最终得到15个最具判别力的低冗余特征集,为后续迁移任务奠定了高质量的数据基础。
针对源域故障分类诊断问题,本文对比研究了K近邻、逻辑回归、极端梯度提升算法和卷积神经网络四种分类模型。采用随机分层抽样的方法,将已标注的源域数据集按80%的比例划分为训练集,用于训练和调整模型参数,剩余20%作为测试集,用于客观评估各模型在未见数据上的泛化性能与诊断精度。结果表明,经贝叶斯优化的XGBoost模型在源域测试集上准确率达到100%,显著优于其他模型,其优异的非线性拟合能力和泛化性能为迁移学习提供了可靠的基准模型。
本项目完整数据代码资料
针对迁移学习策略设计问题,本文重点解决了目标域标签稀缺下的迁移诊断难题。具体而言,针对目标域标签稀缺问题,本文首先采用迁移成分分析方法进行域适应,将源域与目标域数据映射至统一的特征空间,使源域和目标域之间的分布距离减小了42.02%。在此基础上,引入基于置信度评估的XGBoost再训练机制,通过迭代筛选高置信度目标域样本扩充训练集,最终将目标域样本的平均预测置信度提升至0.72,有效实现了从试验台到实车轴承诊断知识的跨域迁移。
针对可解释性分析,从可解释性角度对迁移诊断过程进行了深入分析。通过SHAP全局重要性分析和LIME局部解释方法,揭示了驱动端峭度、能量等关键特征在故障分类中的决策贡献,证实了模型决策逻辑与轴承故障物理机理的高度一致性。可视化分析表明,TCA有效对齐了域间特征分布,从而增强了模型在实际复杂工况下的泛化能力和可信度。
本文所提出的迁移诊断框架在保证高精度的同时,具备良好的可解释性与工程适用性,为高速列车轴承的智能运维提供了有效的解决方案。
关键词:迁移学习;TCA;XGBoost;故障诊断;特征提取
研究背景与问题重述
高速列车因其安全高效、便捷舒适和绿色低碳等优势,已成为我国客运系统的重要组成部分。轴承作为高速列车走行系统的核心旋转部件,长期处于高转速、交变载荷等复杂恶劣工况中,故障率高、易损坏,是引发设备故障的主要源头。一旦发生故障,轻则导致列车延误,重则可能引发脱轨等严重事故,威胁行车安全。
目前高铁轴承状态监测主要依赖专家经验或传统信号处理方法。随着轨道交通系统向高密度、强耦合和智能化方向发展,现有方法在诊断精度、泛化能力和实时性方面难以满足复杂运营场景下的精准诊断需求。近年来,大数据与人工智能技术的快速发展推动了数据驱动的智能故障诊断方法在列车运维中的应用。基于海量运营数据构建的深度学习模型具备更高的故障识别精度、更强的工况适应性和更高效的实时诊断能力。然而,实际运行环境中,传感器采集的振动信号易受背景噪声和干扰影响,故障特征显著性降低,且由于故障数据稀缺,导致训练样本分布严重失衡,制约了深度学习模型的工程应用。
相比之下,试验台架环境下采集的轴承数据标签完备、数量充足,且故障演化机理与实车轴承相似。迁移学习技术为此提供了新的解决思路,其核心是将源域中学到的知识迁移至目标域,以提升模型在目标任务上的性能。
本文使用的源域数据集包含161个轴承试验台架振动数据文件,目标域数据集包含16个实际列车轴承故障数据文件。研究围绕四项核心任务展开:数据分析与故障特征提取、源域故障诊断、迁移诊断实现、以及迁移诊断的可解释性分析。通过以上研究,旨在推动智能故障诊断方法在高速列车轴承健康管理中的实际应用,提升运维智能化水平与列车运行安全性。
模型假设
本文在构建高速列车轴承智能故障诊断模型时,依托以下关键假设展开研究:
假设一:源域与目标域虽存在分布差异,但共享相同的轴承故障物理机理与特征频率规律,使得迁移学习能够实现知识跨域传递。
假设二:振动信号中的故障特征虽受噪声干扰,但通过适当的预处理能够有效提取,并保留足够的判别信息用于状态识别。
假设三:从时域、频域及时频域提取的多维特征能够全面刻画轴承的故障模式,且这些特征在源域和目标域间具有一致性和可迁移性。
假设四:迁移成分分析能够显著减少域间分布差异,而XGBoost等分类模型能够基于迁移后的特征实现高精度、泛化性强的故障诊断。
假设五:轴承的故障类型彼此互斥,且每个数据样本仅对应单一故障模式,无复合故障情形。
假设六:模型决策过程与轴承故障机理存在内在关联,通过可解释性技术能够透明化展示特征贡献与决策路径,增强工程应用可信度。
定义与符号说明
| 符号 | 含义说明 |
|---|---|
| x(t) | 原始振动信号序列 |
| fs | 采样频率 |
| N_resampled | 重采样后的目标长度 |
| x_denoised(t) | 去噪后的信号 |
| L_window | 信号分段窗长 |
| s_k(t) | 第k个信号段 |
| mu | 信号均值 |
| sigma | 信号标准差 |
| skewness | 偏度系数 |
| kurtosis | 峭度系数 |
| x_pp | 峰峰值 |
| x_rms | 均方根值 |
| S | 波形因子 |
| I | 脉冲因子 |
| CL | 裕度因子 |
| E_freq | 频域总能量 |
| eta_band | 频带能量比率 |
| f_centroid | 频谱重心频率 |
| E_wavelet | 小波系数能量 |
| p_energy | 小波能量概率 |
| H_wavelet | 小波能量熵 |
| D_source | 源域数据集 |
| D_target | 目标域数据集 |
| MMD | 最大均值差异 |
| K | 核函数 |
| phi_j | SHAP值(特征j的贡献度) |
| I_j | 特征j的重要性分数 |
最受欢迎的见解
- Python员工数据人力流失预测:ADASYN采样CatBoost算法、LASSO特征选择与动态不平衡处理及多模型对比研究
- R分布式滞后非线性模型DLNM分析某城市空气污染与健康数据:多维度可视化优化滞后效应解读
- Python古代文物成分分析与鉴别研究:灰色关联度、岭回归、K-means聚类、决策树分析
- Python TensorFlow OpenCV的卷积神经网络CNN人脸识别系统构建与应用实践
- Python用Transformer、SARIMAX、RNN、LSTM、Prophet时间序列预测对比分析用电量、零售销售、公共安全、交通事故数据
- MATLAB贝叶斯超参数优化LSTM预测设备寿命应用——以航空发动机退化数据为例
- Python谷歌商店Google Play APP评分预测:LASSO、多元线性回归、岭回归模型对比研究
- Python+AI提示词糖尿病预测模型融合构建:伯努利朴素贝叶斯、逻辑回归、决策树、随机森林、支持向量机SVM应用
数据分析与故障特征提取
本节建立了一套系统的特征工程模型,通过对源域数据的预处理、多域特征提取和特征融合,构建适用于迁移学习的高质量特征表示。
信号预处理与特征提取
为构建适用于迁移诊断的故障特征集,我们对源域振动数据进行了系统的处理,整体流程如图5-1所示。该流程旨在从原始信号中提取出对故障敏感且具有一定域不变性的多域特征。

图5-1 信号预处理与特征提取流程
由于源域数据采样频率与目标域不一致,首先对所有信号进行了重采样处理,将其统一至32 kHz,以消除采样率差异对特征可比性的影响。随后,为抑制环境噪声和随机干扰,采用了小波阈值去噪法对信号进行平滑处理。
为充分挖掘数据信息,对预处理后的长序列信号进行了分段处理。设置一个长度为1024个采样点的滑动窗口,以非重叠的方式将连续振动信号划分为多个样本片段。此长度足以捕捉轴承故障的周期性冲击,分段过程如图5-2所示。

图5-2 信号分段示意图
基于轴承故障机理,从每个信号片段中提取了时域、频域和时频域三类共28个特征指标,力求全面刻画信号在不同维度下的状态。所提取的特征名称、类别及其物理意义如表1所示。这些特征共同构成了一个高维特征向量,作为后续诊断模型的输入。
通过上述系统性的处理,我们将原始的振动时间序列转化为一个包含丰富状态信息的特征数据集,为后续实现高精度的源域故障诊断及向目标域的迁移奠定了可靠的数据基础。
阅读原文进群获取完整内容及更多AI见解、行业洞察,与900+行业人士交流成长。
特征后处理与数据标准化
在完成多域特征提取后,对初步构建的特征集进行了系统后处理。通过数据清洗流程,对异常值和无效样本进行了识别与剔除。基于Z-score方法,对每个特征维度进行了异常值检测,设定阈值为±3σ。此外,对分类变量进行了独热编码,将其转换为数值形式,便于模型处理。
接下来,为消除不同特征量纲和数值范围差异带来的影响,对所有数值型特征进行了Z-score标准化处理。处理后的特征均值为0,标准差为1,有效避免了某些大数值特征在模型训练中占据主导地位的问题。
特征筛选与优化
采用多准则特征选择方法,综合相关性分析、ANOVA分析和随机森林重要性评估,筛选出最具判别力的特征子集。

图5-3 特征相关性热力图
如图5-3所示,展示了特征相关性热力图,揭示了特征间的冗余关系。我们观察到,部分时域统计特征之间存在高度相关性,例如驱动端的峰峰值与标准差呈强正相关。这从物理意义上易于理解:信号的波动幅度增大,其极值差通常也会同步增大。保留高度相关的多个特征,相当于给模型提供了重复信息,不仅无益于提升性能,反而可能引入多重共线性问题。因此,在后续筛选中,我们从每一组高度相关的特征中,优先保留与故障机理关联更直接或判别能力更强的单一特征。
其次,通过绘制各特征在不同故障类别下的分布直方图,如图5-4所示,来直观评估每个特征的单变量判别能力。一个理想的特征应能在不同故障类别的样本上呈现出显著不同的分布形态。



图5-4 特征分布直方图
如图5-4所示,显示了特征在不同故障类别下的直方图分布,直观反映了各特征的区分能力。可以清晰地看到:故障特征频率在不同故障类型的样本集中分布在不同的频率区间,且与正常状态分离明显,这与轴承故障机理完全吻合。驱动端峭度在正常状态下值接近3,而一旦发生故障,产生冲击性振动,峭度值显著增大。频带能量比则反映出不同故障激发的共振频带不同,导致其在特定频带的能量占比存在差异。相反,部分特征在不同类别下的分布高度重叠,判别能力较弱,在筛选中应被赋予较低权重。
接着,为捕捉特征与故障类型之间复杂的非线性关系,训练了一个随机森林模型,并计算了其提供的特征重要性排序,如图5-5所示。

图5-5 特征重要性排名
如图5-5所示,故障特征频率的重要性得分遥遥领先,定量验证了它是区分故障类型的决定性因素。紧随其后的是驱动端和风扇端的峭度,再次确认了冲击特征的关键作用。此外,一些在单变量分析中不那么突出的频域及时频域特征也获得了较高的重要性评分,表明随机森林模型发现了这些特征在复杂决策边界中的贡献。
最后,综合上述三项分析结果,建立了一个多准则打分模型。根据综合得分,筛选出排名前15的特征子集。筛选后的特征子集维度从28维降至15维,精简了近50%。为验证筛选效果,分别使用全特征集和筛选后的特征集在相同的分类模型上进行训练和测试。结果表明:筛选后的特征子集在测试集上的分类准确率仅比使用全特征集下降了1.2%,但模型训练时间减少了约35%。这达到了优化目标:在几乎不牺牲诊断性能的前提下,显著提升了模型的效率,并降低了过拟合的风险。
以下代码实现了从特征相关性分析到特征重要性评估的完整筛选流程:
def calc_feature_relations(self):
# 计算特征间相关系数矩阵
corr_mtx = self.data_df[self.cols_feat].corr()
print("\n按F统计量排序,与故障类别关联最强的特征:")
feat_vs_label = []
for ft in self.cols_feat:
# 按故障类型分组后做单因素方差分析
grp_vals = [self.data_df[self.data_df['故障类型'] == cat][ft].values
for cat in self.data_df['故障类型'].unique()]
if len(grp_vals) > 1:
f_stat, p_val = stats.f_oneway(*grp_vals)
feat_vs_label.append((ft, f_stat, p_val))
# 按F统计量降序排列
feat_vs_label.sort(key=lambda tup: tup[1], reverse=True)
for idx, (ft, f_stat, p_val) in enumerate(feat_vs_label[:10]):
print(f"{idx+1}. {ft}: F-stat={f_stat:.4f}, p-value={p_val:.4e}")
def calc_rf_importance(self):
# 使用300棵树的随机森林评估特征贡献度
rfc = RandomForestClassifier(n_estimators=300, random_state=42, oob_score=True)
rfc.fit(self.data_feat, self.data_label)
imp_scores = rfc.feature_importances_
sorted_idx = np.argsort(imp_scores)[::-1]
top_feats = [self.cols_feat[i] for i in sorted_idx[:10]]
print("\n前10个重要特征:")
for idx, ft in enumerate(top_feats):
print(f"{idx+1}. {ft}: {imp_scores[sorted_idx[idx]]:.4f}")
return top_feats
阅读原文进群获取完整内容及更多AI见解、行业洞察,与900+行业人士交流成长。
源域故障诊断
在完成特征筛选的基础上,进入源域故障诊断的核心环节。轴承故障诊断本质上是一个多分类模式识别问题,本文选择了四种具有代表性的分类算法进行对比研究:K近邻算法、逻辑回归、XGBoost以及一维卷积神经网络模型。
多模型对比与评价
为确保模型评估的可靠性,采用分层抽样方法将数据集按8:2比例划分为训练集和测试集,保证各类别在训练集和测试集中的分布比例一致。各模型在测试集上的综合性能指标如表2所示。
从结果可以看出,XGBoost模型表现最为突出,所有指标均达到1.0的完美值,表明该模型能够完全准确地对测试集样本进行分类。逻辑回归模型紧随其后,准确率达到99.18%,AUC值高达0.9998。一维CNN模型也表现出色,准确率为95.08%。KNN模型虽然相对较弱,但准确率仍达到93.44%,表明其具有一定的实用价值。

图6-2 各模型测试集混淆矩阵对比
图6-2绘制了各分类模型的混淆矩阵,可以看出XGBoost模型在所有故障类别上均未出现任何误判,对角线元素全部为深色,这与其完美的性能指标相互印证。逻辑回归模型仅在外圈故障类别上出现1个误判案例,将1个外圈故障样本误判为内圈故障,这可能源于两类故障在特征空间中的边界重叠。一维CNN模型在正常状态和滚动体故障上各出现2个误判案例,主要混淆发生在正常状态与故障状态之间。

图6-3 各模型测试集ROC曲线对比
图6-3绘制了各模型的ROC曲线,可以看出XGBoost模型的ROC曲线紧贴左上角,AUC值达到1.0。逻辑回归模型的ROC曲线也接近完美,AUC值为0.9998。所有模型在外圈故障类别上的曲线都明显高于其他类别,这与外圈故障样本数量充足、特征明显的特点相符。

图6-4 模型泛化性能对比
通过对比训练集和测试集的性能差异,如图6-4所示,评估了各模型的泛化能力。XGBoost模型在训练集和测试集上的性能完全一致,未见任何过拟合现象,这得益于其正则化机制和集成学习策略。逻辑回归模型的表现最为稳定,训练集与测试集的性能差异不足0.5%。一维CNN模型显示出轻微过拟合迹象,训练集性能比测试集高出约2%。KNN模型由于基于实例的学习机制,泛化能力相对较弱。
综上所述,XGBoost模型在各个度量指标下均显著优于其他的分类模型,在轴承故障诊断任务中表现最优。基于此,拟将该分类模型作为后续迁移学习任务的基准模型。
以下代码实现了XGBoost模型的训练与优化:
阅读原文进群获取完整内容及更多AI见解、行业洞察,与900+行业人士交流成长。
迁移诊断框架
在完成源域故障诊断的基础上,本节建立有效的迁移学习模型,将源域中学到的诊断知识适配至目标域。考虑到源域与目标域之间存在的分布差异,本文构建了基于特征对齐和模型自适应的混合迁移学习框架。
基于TCA的域适应
为解决源域与目标域之间的分布差异问题,采用迁移成分分析方法进行特征层面的域适应。TCA的核心思想是通过核函数将原始特征映射到高维再生核希尔伯特空间,并在该空间中学习一个投影矩阵,使得投影后的源域和目标域数据分布差异最小。
通过网格搜索优化关键参数,最终确定最优参数组合为:核函数类型为径向基函数,维度为15,核参数为0.5,正则化参数为1.0。在原始特征空间中,源域与目标域之间的分布距离为8.4546,经过TCA变换后,域间距离显著降低至4.9022,减少比例达到42.02%。

图7-1 TCA变换前后特征分布对比
为直观展示域适应效果,通过t-SNE降维技术将高维特征映射到二维空间进行可视化。由图7-1可以明显观察到,在原始特征空间中,源域和目标域样本形成相对分离的簇群;而经过TCA变换后,两个域的样本在特征空间中实现了更好的分布对齐,重叠区域明显增加。
XGBoost迁移诊断与再训练
在TCA变换后的特征空间上,采用XGBoost算法构建故障诊断模型。通过贝叶斯优化方法对XGBoost的关键超参数进行50轮迭代搜索,得到最优参数组合。基于最优超参数训练的XGBoost模型在源域数据上表现出完美的分类性能,训练准确率达到100%。
然而,直接将源域模型应用于目标域时,预测置信度相对较低,平均值为0.5065。为解决这一问题,实施了高置信度样本再训练策略:首先对16个目标域样本进行初始预测,基于预测置信度筛选高质量样本加入训练集,通过迭代筛选高置信度目标域样本扩充训练集。
再训练后所有样本的预测置信度均得到提升,平均置信度从0.5065显著提升至0.72,提升幅度显著。从故障类型分布变化来看,再训练后外圈故障的预测数量从10个减少至7个,而内圈故障从0个增加至4个,滚动体故障从6个减少至5个。这种分布调整反映了模型在获得目标域信息后对故障模式认知的细化,更符合实际工程中各类故障的发生概率。

图7-3 各故障类型的概率分布条形图
图7-3展示了各故障类型的概率分布条形图,可以清晰看出不同故障类型在特征空间中的可分性以及模型决策的确定性程度。
以下代码展示了TCA域适应的核心实现与迁移学习流程:
def tca_align(source_feat, target_feat, n_comp=15, kern='rbf', g=1.0, reg=1.0):
from sklearn.metrics.pairwise import pairwise_kernels
import scipy.linalg as la
ns, ms = source_feat.shape[0], target_feat.shape[0]
comb = np.vstack((source_feat, target_feat))
# 在再生核希尔伯特空间中构建核矩阵
mat_kern = pairwise_kernels(comb, metric=kern, gamma=g)
mat_mmd = np.zeros((ns+ms, ns+ms))
mat_mmd[:ns, :ns] = 1.0 / ns
mat_mmd[:ns, ns:] = -1.0 / (ns * ms)
mat_mmd[ns:, :ns] = -1.0 / (ns * ms)
mat_mmd[ns:, ns:] = 1.0 / ms
# 中心化矩阵
mat_center = np.eye(ns+ms) - np.ones((ns+ms, ns+ms)) / (ns+ms)
mmd_centered = np.dot(np.dot(mat_center, mat_mmd), mat_center)
kern_mmd_kern = np.dot(np.dot(mat_kern, mmd_centered), mat_kern)
......(省略TCA广义特征值分解与投影矩阵计算代码)
return proj_src, proj_tgt
阅读原文进群获取完整内容及更多AI见解、行业洞察,与900+行业人士交流成长。
迁移诊断的可解释性分析
在完成迁移诊断模型的构建后,本节重点研究模型的可解释性,旨在揭示其从源域到目标域的知识迁移路径及决策逻辑,以增强智能诊断系统的透明度和可信度。
迁移过程的可视化分析
为直观展示TCA变换对特征分布的影响,绘制了特征分布对比图,如图8-1所示。



图8-1 特征分布对比图
从特征分布对比图中可以观察到,TCA变换后多数特征的分布从分散变为集中,源域和目标域的重叠度明显增加。以轴承转速特征为例,原始分布中源域和目标域存在明显偏移,TCA变换后分布向中心附近集中,重叠度增加,表明TCA成功对齐了频率特征。驱动端小波能量熵的原始分布中,源域峰值与目标域峰值部分重叠,TCA变换后分布均集中在中心附近,形态高度相似,表明TCA有效压缩了特征跨度,增强了域不变性。
为了定量评估域适应效果,绘制域间距离对比柱状图,如图8-2所示。

图8-2 域间距离对比柱状图
域间距离的定量分析结果如图8-2所示,经过TCA变换后MMD距离减少比例达到42.02%。这一结果从统计角度验证了域适应方法的有效性。
为了从几何角度进一步揭示迁移过程的效果,采用t-SNE技术对高维特征进行降维可视化,如图8-3所示。

图8-3 原始和TCA变换后的特征空间t-SNE图
由图8-3可知,在原始特征空间中,源域的不同故障类别形成相对独立的聚类,而目标域样本集中分布在特定区域,与源域存在明显分离。这种分布差异解释了直接迁移方法性能不佳的原因。TCA变换后,目标域样本与源域各类别之间的相对距离缩小,分布重叠区域增加,为知识迁移创造了有利条件。
特征重要性与决策逻辑分析
基于SHAP方法的全局特征重要性分析揭示了各特征对故障诊断决策的贡献程度,如图8-4所示。

图8-4 SHAP全局图分析
由图8-4可知,SHAP分析表明模型决策高度依赖驱动端特征和冲击相关特征,与轴承故障物理机理完美吻合。轴承转速以最高的SHAP重要性成为最具判别力的特征,该特征直接关联轴承的几何参数和转速,用于计算理论故障频率,是区分故障类型的物理基础。驱动端小波能量熵位居第二,主要对内圈故障和外圈故障有重要贡献,该特征衡量信号在时频域的能量分布复杂性,对冲击性故障敏感。
为进一步理解模型针对具体样本的决策逻辑,采用LIME方法进行局部可解释性分析。

图8-5 目标域样本A的LIME解释图
样本A被预测为滚动体故障,置信度0.83。LIME分析显示,轴承转速和驱动端峰值因子是主要决策依据。这一决策逻辑与滚动体故障的物理机理完全吻合——滚动体故障产生高频冲击,导致故障频率成分和峰值因子升高。

图8-6 目标域样本G的LIME解释图
样本G的内圈故障预测主要依赖于驱动端重心频率和驱动端小波能量熵。内圈故障导致频率结构变化,重心频率偏移和小波能量熵增加共同推动内圈故障预测。

图8-7 目标域样本N的LIME解释图
样本N的外圈故障预测基于风扇端峰值因子和风扇端小波能量熵。外圈故障频率固定,冲击信号传递至风扇端,导致峰值因子和能量熵增加。
LIME分析显示,模型对每个样本的决策均基于物理意义明确的特征,且与故障机理一致。驱动端特征在诊断中占主导,风扇端特征作为补充,反映了信号传递路径的影响。
故障机理关联性验证
为了验证模型学习到的特征模式与轴承故障物理机理的一致性,进行了系统的故障机理关联性分析。通过计算故障特征频率与模型关键特征之间的相关性,发现模型学习到的判别模式与轴承故障理论高度一致。特别是外圈故障与风扇端峰值因子的关联强度达到0.91,表明模型有效捕获了外圈故障频率成分的能量集中现象。内圈故障与重心频率的关联反映了频率调制效应,滚动体故障与轴承转速的关联体现了冲击特性。
通过系统的可解释性分析,不仅验证了迁移诊断模型的技术有效性,更重要的是揭示了模型决策的物理合理性和工程适用性。分析结果表明,模型成功学习了与轴承故障机理一致的特征模式,能够为实际运维决策提供可靠的技术支持。
研究结论
本文围绕高速列车轴承智能故障诊断问题,建立了一套从特征工程到迁移诊断的完整分析框架。在数据分析与特征提取环节,结合轴承故障机理从时域、频域和时频域三个维度系统提取了28个初始特征,并通过相关性分析、ANOVA方差分析和随机森林多准则筛选,得到15个低冗余特征集。在源域故障诊断环节,四种分类模型的对比结果显示,经贝叶斯优化的XGBoost模型在测试集上达到100%准确率,为迁移诊断提供了可靠的基准模型。
在迁移诊断环节,迁移成分分析方法将源域与目标域之间的分布距离减小了42.02%,结合高置信度样本再训练机制,目标域样本的平均预测置信度提升至0.72,有效实现了从试验台到实际列车轴承诊断知识的跨域迁移。在可解释性分析环节,SHAP和LIME方法揭示了模型决策逻辑与轴承故障物理机理的高度一致性,验证了迁移诊断框架的工程适用性。
本文所提出的方法在保证诊断精度的同时,具备良好的可解释性与迁移能力,为高速列车轴承的智能运维提供了有效的技术方案。未来可进一步探索更先进的域适应算法与端到端深度学习架构,以应对更复杂的多工况迁移场景。
模型评价与优化
从诊断准确性来看,模型在目标域数据集上达到了较高的分类准确率,特别是在外圈故障诊断方面表现尤为突出。在泛化能力方面,模型展现出较强的跨域适应能力,通过迁移成分分析成功学习了域不变特征。从计算效率角度,模型在保证诊断精度的同时保持了合理的计算复杂度,满足实际工程中实时监测的需求。
模型的局限性主要体现在:源域与目标域之间的分布差异尚未完全消除,特别是在极端工况下的泛化能力仍有提升空间;当前采用的TCA与XGBoost组合虽然效果良好,但特征提取与分类两个阶段的分离设计可能导致次优解;模型对少数类样本的处理能力有限。
针对上述局限性,后续可从以下方向进行优化:引入更先进的数据增强技术,如生成对抗网络或变分自编码器;探索端到端的深度迁移学习架构,如域对抗神经网络;采用代价敏感学习或焦点损失函数来应对类别不平衡问题。
本文配套的论文建模可直接套用的完整代码包、实证分析,可加小助手微信:tecdat_cn领取,我们可提供全流程的辅助学术合规辅导、1v1建模陪跑服务,助力顺利完成科研、通过答辩。

每日分享最新报告和数据资料至会员群
关于会员群
- 本会员社群以垂直产业数据研究、深度行业报告分享、AI数据工具实操交流为核心定位;
- 入群即可解锁全行业数据内容免费阅读与下载权限,同步更新海内外一手优质研究报告文档与产业数据;
- 会员老用户享受专属 9 折续费优惠,可长期锁定社群全部权益;
- 为会员提供一对一免费 PDF 报告专属代找服务。
非常感谢您阅读本文,如需帮助请联系我们!

Python用DGCRN、Informer序列蒸馏与GRU、LSTM组合模型PM2.5浓度预测对比分析|附代码数据
Python随机矩阵理论RMT算法实现ADRB1受体药物虚拟筛选高精度AUC预测|附数据代码
Python GCN图卷积神经网络分子亲脂性LogD预测附代码数据
2026年出海品牌平台迁移白皮书:寻找第二增长曲线|附100+数据、报告下载


