特发性黄斑视网膜前膜能引起患者视物变形、变小和视力下降等视功能损害。
为研究特发性黄斑视网膜前膜的危险因素,我们回顾性分析202例患者的临床资料,依据诊断分为IMEM组和对照组(非IMEM组)。收集该疾病临床上常规检查的30个相关因素。我们帮助客户通过引入GroupLasso模型方法,筛选出导致疾病发生的最重要的危险因素。
结果表明,糖尿病、高血压和高密度脂蛋白是影响IMEM发生的危险因素。
该研究结果将对IMEM早期诊断、早期预防、早期治疗,降低IMEM的发生率具有重要的临床意义。
背景
黄斑视网膜前膜(macular epiretinal membrane):指在黄斑区视网膜内表面生长的纤维无血管的细胞性增殖膜,类似的病名还有:视网膜前纤维增生症(preretinal fibrosis),黄斑皱缩综合症(macular pickling syndrome),玻璃纸样黄斑病变(cellophane maculopathy)及黄斑皱褶(macular pucker)等,是老年人影响视力的一个重要原因。
意义
近年来,一项来自美国6个社区的白人、黑人、西班牙人、中国人在内的流行病调查,以研究黄斑前膜的发生是否有种族差异,报道IMEM发生率为26.1%,中国人发病率最高,达39.0%。黄斑前膜日益成为威胁我国中老年人视觉质量的重要因素。
随着医疗技术的逐步完善,IMEM的诊断水平得到了提高,但一些医院因检查设备问题不能及时有效的做出诊断。由于IMEM的病因不明,考虑全身疾病和眼局部疾病相关因素等各项指标数据较多,而且各项指标间存在着噪音和数据冗余。
国内外文献综述
黄斑视网膜前膜(macular epiretinal membrane):指在黄斑区视网膜内表面生长的纤维无血管的细胞性增殖膜,类似的病名还有:视网膜前纤维增生症(preretinal fibrosis),黄斑皱缩综合症(macular pickling syndrome),玻璃纸样黄斑病变(cellophane maculopathy)及黄斑皱褶(macular pucker)等,是影响老年人视力的一个重要原因。大部分患者的黄斑视网膜前膜,形成的原因不明,称为特发性黄斑视网膜前膜(idiopathyic macular epiretinal membrane)。
视频
Lasso回归、岭回归等正则化回归数学原理及R语言实例
视频
R语言机器学习高维数据应用:Lasso回归和交叉验证预测房屋市场租金价格
视频
逻辑回归Logistic模型原理和R语言分类预测冠心病风险实例
研究的问题
本文主要研究的问题是:解决变量选择问题,综合考虑临床工作中常规检测到的相关因素以及相关因素之间的交互作用,从众多变量中筛选出对发生IMEM有显著影响的变量。
研究内容与思路
相关因素选择的基本问题
我们常用的就是分类器的精确度(accuracy),在某些如推荐或信息获取领域还会组合使用precision-recall作为评价指标。因为你用于训练分类器的样本本身就是总体的一个抽样,所以这些指标的数值也仅仅是一种统计上的反映,如果你做多次抽样训练,跟别的随机变量一样,它一样会有期望、方差、置信区间这些概念。理论上说,训练样本量越大,你得到的这些指标的可信度就越高(即它们以某个概率落在的置信区间越窄)。不幸的是,实际中你未必会有那么多的样本,所以机器学习工作者设计出很多种方法来应对数据量不足情况下分类器的训练与评估,如k步交叉检验、留1法、boostrap等等。
模型的引入
套索(lasso)是回归模型的变量选择方法,最初应用于普通最小二乘法(OLS)回归。套索最好被描述在模型参数,其中具有特定常数作为上限的绝对值和的约束。相比OLS参数估计,使用Lasso获得的估计通常是更准确,允许该模型的更好的解释。
特发性黄斑视网膜前膜发生相关因素实证分析
本文研究数据选取我院2014年4月- 2016年4月收治的经我院确诊的特发性黄斑视网膜前膜单眼发病患者101 例(101眼) 作为观察组,另选取于我院就诊的无黄斑区病变的其他患者101 例(101眼) 作为对照组。
正常眼底黄斑OCT图像:
同一患者左眼IMEM彩色眼底照:
随时关注您喜欢的主题
数据说明与处理
本研究采取回顾性病例分析,调查所有病例的眼部病史(白内障、青光眼)、一般情况(年龄、性别、文化程度、职业),生活方式(如吸烟、饮酒、睡眠状况、用眼情况),测量体重,腰围。全身系统性疾病( 糖尿病、高血压、LDL、HDL、血管疾病、消化系统、泌尿系统、精神系统疾病)和服用降压药、降糖药、调脂药、镇静催眠药、镇痛药、溶栓药等用药史,并进行数据统计,分析IMEM的相关因素。特发性黄斑视网膜前膜的相关因素共有30个,包括3个连续变量,5个多分类变量,22个二分类变量。
数据描述与分析
特发性黄斑视网膜前膜相关因素数据特征
IMEM组与非 IMEM组 3个相关因素指标分布箱图
变量选择和参数估计
使用 R 中的 glmnet 包进行由成组Lasso选出协变量的Logistic模型,通过10折交叉验证,选出最优的λ和最佳cutoff 值,使得 MSE最小。再将 cutoff 值代入模型,选出最重要的变量。最终糖尿病(DM2),高血压(HP2),低密度脂蛋白(LDL)三个变量被选出。其中带+号的表示 IMEM发生的危险因素,带-号的表示 IMEM发生的保护因素。此时的λ为 0.06。三个选出的变量的系数分别为 0.74,0.93, 1.12。
glmnet(xmat, y, alpha = 1)
使用岭迹法对岭迹图进行分析:
岭迹法的直观考虑是,如果最小二乘估计看来有不合理之处,如估计值以及正负号不符合经济意义,则希望能通过采用适当的k值来加以一定程度的改善,k值得选择就显得尤为重要。
使用岭迹法对岭迹图进行分析:
预测
通过由成组Lasso选出协变量的Logistic模型分析,最终2型糖尿病(DM2),高血压2期(HP2),低密度脂蛋白(LDL)三个变量被选出。
通过预测结果可以看出,TPR 达到了 96.96%,TNR 达到了 97.1%,FPR 为2.9%,FNR 为 3.03%,说明本文的Logistic预测模型拟合的很好,对解决实际问题很有意义。
模型比较
本文通过交叉验证的方法,选择最优的参数,使得 AUC指标最大。选出了影响 IMEM发生的三个重要因素。不仅增加了模型的可解释性,也增加了判别准则的灵敏度,使得有更多的 IMEM潜在患者被筛选出来。
下面考虑以下两种情景
(1)包含所有待选协变量的Logistic模型,使用0.5做 cutoff 值。
(2)仅包含由成组Lasso选出协变量的Logistic模型,使用0.5作 cutoff 值。
将这两种情景与本文提出的方法作比较,得出的结果如下表所示:
在本研究中,研究者利用二分类响应变量和30个待选协变量(连续、二分类、多分类有序)建立模型。为了比较不同调整参数筛选解释变量的效果,建立如下三个包含不同协变量的模型并通过十折交叉验证计算判断误差:
1)模型I:包含所有待选协变量的Logistic模型;
2)模型II:成组Lasso Logistic模型;
3)模型III:仅包含由成组Lasso选出协变量的Logistic模型。
图是三个模型误差曲线图,模型I 的误差为20.6%,模型III 的误差为4.9%,模型II的误差介于二者之间,为20.0%。
参考文献
[1]. 陈钦元.黄斑部视网膜前膜[M]聂爱光.现代黄斑疾病诊断治疗 学.北京: 北京医科大学、中国协和医科大学联合出版社,1996:131-135.
[2]. Lan-Hsin Chuang , Nan-Kai Wang , Yen-Po Chen b,et al. Comparison of visual outcomes after epiretinal membrane surgery[J].Taiwan Journal of Ophthalmology 2 (2012):56-59.
[3]. 邢晓利,梁勇.光学相干断层扫描在玻璃体黄斑界面疾病中的临床应用进展[J]. 国际眼科杂志,2013,13(8):1583-1585.
[4]. Minchiotti S,Stampachiacchiere B,Micera A,et al.Human idiopathic epiretinal membranes express NGF and NGF receptors [J].Retina,208,28(4):628-637.
[5]. Kawasaki R,Wang JJ,Mitchell P,et a1.Racial difference in the prevalence of epiretinal membrane between Caucasians and Asians[J].Br J Ophthalmol,2008,92(10):1320—1324.
可下载资源
关于作者
Kaizong Ye是拓端研究室(TRL)的研究员。在此对他对本文所作的贡献表示诚挚感谢,他在上海财经大学完成了统计学专业的硕士学位,专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。
本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。
非常感谢您阅读本文,如需帮助请联系我们!