数据分析促进白血病预测诊断

2019年,全球八个主要国家的18岁以上男女共诊断出72,164例急性髓细胞白血病(AML)。

由Kaizong Ye,Qing Li撰写

预计它将继续以2.51%的复合年增长率增长,到2029年达到90,264。


AML患者的生存率仍然很差,总体5年生存率约为15%。

AML患者最初接受阿糖胞苷的标准护理组合方案治疗,然后再接受蒽环类药物(如柔红霉素)治疗,有时再进行干细胞移植治疗。通常在进行“巩固”化疗之后,不幸的是,AML的复发率非常高。

识别AML中新的治疗途径通常着眼于诊断时胚细胞中存在的潜在突变。

×

自动化诊断是未来趋势,但现在不成熟,有很大的发展空间。

最先要指出的是,大数据诊断,并非单纯的收集数据得出统计结论,而是有一定的人工智能算法在其中起推断作用。其中简单有效,而且最符合人的判断逻辑的算法叫做贝叶斯网络,在足够多的数据(这点很难就是了)的前提下,完全可以比任何一个个人能做出的判断更加准确。在数据不足的情况下,也有可以和不少个人媲美的推断能力,至少在少见病的诊断上,其准确率是远远高于人的。国外有这样的诊断辅助产品,就是针对少见病诊断市场。国内目前完全空白。

我们先来看看现在的临床诊疗。
1、现代医学是循证医学(EBM)。也就是临床实践都是以基础科学研究和大规模的临床实验结果作为支持的。这些结论,都是大量的数据采集和分析的结果。

2、现代医学的临床实践仍然处于经验为主的阶段,EBM的结论,并不能直接完全覆盖实际病人身上发生的具体情况。基于EBM的基础部分的结论,结合实践经验,仍然是现阶段临床实践最重要的方式。

3、大量未得到良好教育和缺乏检查受手段的医务工作者,仍然是目前医疗的主要力量,尽管国内有最好教育的医生和最好检查手段的三甲医院,依然人满为患。

4、全科医生的作用被严重低估,而大量专科医生扮演起了全科医生的角色,化了很大的精力在处理一些“小病”上。

总结一下就是:EBM指导的部分有局限,EBM+经验医疗是主流,条件差,水平低,专业不对口的医生是主流。

大数据可以解决什么问题呢:
1、扩大EBM的适用范围。如果可以精确地采集数据,EBM在医疗中的比重将更快地上升,总体医疗质量提高。

2、个人经验无关紧要,大数据将使得个人经验更多地转变成全人类经验,误诊、漏诊将大大减少,从而提高整体医疗质量。

3、医院分工、医生分工将更加明确:大医院解决复杂病情,中医院解决一般病情,小医院解决慢性病于预防接种保健。因为医生的诊断已经不依赖个人经验,从而对普通疾病和罕见疾病的准确率可以有保证;只有病情复杂,治疗手段复杂,需要建立MDT(多学科团队)的病人,才需要大医院和专家的处理。

4、所有医生的工作负担均会一定程度上的减轻,从而带给病人的医疗服务质量会有提升。

而现阶段大数据做不到的事情:
1、精确地、自动化地数据采集。毫无疑问,同一个样品去不同医院的实验室同时做化验,结果都会不同,这已经是自动化程度非常高的了(这个问题其实可以通过实验室间校准解决)。跟别提那些可穿戴设备了,可以达到临床参考级别的设备实在是太少。而医疗数据的维度也特别高,如何让大数据去自动处理病人的CT资料?而病史,体检等描述性资料,更离不开临床工作者的采集。总之,数据采集方面,完全没办法离开一线临床工作者。

2、To cure sometimes,to relieve often,to comfort alway. ——E. L. Trudeau。真正能治愈的疾病实在是少得可怜(其实大多也不是治好的,只是身体自己好的),更多的时候,医生做的只是在减轻痛苦,抚慰心灵。这部分工作,大数据能帮上的忙就十分有限度,大数据最多只是减轻医生其他方面的工作,从而换取更多的精力到人文关怀上。

真正可以靠大数据看病了,那得是人工智能发展到可以超越大部分人类的时候了。但并不意味着大数据在现阶段完全没有价值。这部分的价值其实是非常巨大的,只是要找到有能力去做的人,同时又能找到买单的人很困难。就像Google研究无人驾驶汽车一样,未来一定会大部分时候完全无人驾驶,而现在的无人驾驶技术依然有巨大的技术价值(比如说可以避免很多高速公路上的车祸)。


在最近的几十年中,针对已知突变途径的药物在非特异性白血病患者中获得了巨大的成功(例如,格列卫治疗慢性粒细胞白血病; ATRA急性早幼粒细胞白血病;慢速静脉曲张治疗慢性淋巴细胞性白血病)。

在本文中,我们将分析受体酪氨酸激酶FLT3。

FLT3突变状态诊断时预测风险

患者的FLT3突变状态是否可以在诊断时预测任何有用的信息(或与之相关)?


图表1

图片

我们分析了FLT3两种突变状态下风险细胞评分。FLT3两种突变状态分别为:WT基因和Mut基因。通过比较不同状态下风险细胞:在诊断时基于细胞遗传学的风险评分,可以发现WT基因状态下风险评分差的患者比例要高于风险评分良好的患者。在Mut基因状态下风险评分差的患者比例要低于风险评分良好的患者。通过检验,我们发现FLT3突变状态和风险细胞评分之间有显著的影响关系。

接下来,我们对患者年龄分组,大部分患者年龄集中在40岁以上。WT基因状态下风险评分差的患者比例高于Mut基因,随着年龄增加,风险细胞良好的患者比例减少,风险评分差的比例在40岁以下的最低,大于40岁的患者年龄分组中差异不明显。Mut基因下风险评分差的比例在50-60岁最低,其他分组差异不明显。通过年龄对FLT3突变状态的影响分析,我们发现影响不显著。


R语言生存分析数据分析可视化案例

阅读文章


FLT3突变状态与预后因素

AML是通过患者外周血和骨髓中的肿瘤“胚细胞”数量来诊断的。

这通常记录为胚细胞在骨髓细胞总数中的百分比,或外周血中白细胞的总数。

较高的数字通常代表不利的预后因素。


图表3

图片


随时关注您喜欢的主题


接下来,我们比较了不同状态基因下,胚细胞在骨髓细胞总数中的百分比,或外周血中白细胞的总数水平下患者数量。

WT基因下,骨髓细胞总数中的百分比80以上的患者分布比例最高,骨髓细胞总数中的百分比20以下最少,大部分患者外周血中白细胞的总数小于150。Mut基因下,骨髓细胞总数中的百分比50-70的患者分布比例最高,远超过骨髓细胞总数中的百分比50以下的患者比例。通过分析,我们发现FLT3突变状态对胚细胞在骨髓细胞总数中的百分比和外周血中白细胞的总数有显著的影响。


可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498