用关联规则数据挖掘探索药物配伍中的规律

方剂药效与剂量的关系中药不传之秘在于剂量中药配伍规律。

由Kaizong Ye,Qing Li和Weilong Zhang撰写

拓端数据使用数据挖掘技术对海量的在线医院药物复方历史数据进行智能分析,并从中找出药物配伍的规律。

业务挑战

中医传承过程中,关于生理、病因病机以及疾病的表现和发展规律,都容易记载在书上,也容易理解和传承。然而随着医药科技的不断进步,新特药品的的种类的不断出现,给药物配伍又一次新挑战。同时,为了探索昂贵中药材是否有其他廉价替代品的问题,对药物的配伍规律和性味归经描述来衡量药物的相似度,根据相似度对药物进行聚类。

×

应用关联规则最经典的案例就是购物篮分析,通过分析顾客购物篮中商品之间的关联,可以挖掘顾客的购物习惯,从而帮助零售商更好地制定有针对性的营销策略。

举一个简单的关联规则的例子:

婴儿尿不湿->啤酒[支持度=10%,置信度=70%]

这个规则表明,在所有顾客中,有10%的顾客同时购买了尿不湿和啤酒,而在所有购买了婴儿尿不湿的顾客中,占70%的人同时还购买了啤酒。发现这个关联规则后,超市零售商决定把婴儿尿不湿和啤酒摆放在一起进行促销,结果明显提升了销售额,这就是发生在沃尔玛超市中“啤酒和尿不湿”的经典营销案例。

上面的这个案例是否让你对支持度和置信度有了一定的了解?事实上,支持度和置信度是衡量关联规则强度的两个重要指标,它们分别反映着所发现规则的有用性和确定性。其中

支持度:规则x->y的支持度是指事物全集中包含xuy的事物百分比。

支持度主要衡量规则的有用性,如果支持度太小,则说明相应规则知识偶发事件。

在商业实战中,偶发事件很可能没有商业价值;

置信度:规则规则x->y的置信度是指既包含了x的事物数量的百分比。

置信度主要衡量规则的确定性(可预测性),如果置信度太低,那么从x就很难可靠地推断出y来,置信度太低的规则在实践应用中也没有太大用处。

在众多的关联规则数据挖掘算法中,最著名的就是Apriori算法,该算法具体分为以下两步进行:

(1)生成所有的频繁项目集。一个频繁项目集是一个支持度高于最小支持度阀值的项目集。

(2)从频繁项目集中生成所有的可信关联规则。这里可信关联规则是指置信度大于最小置信度阀值的规则。

关联规则算法不但在数值型数据集的分析中有很大用途,而且在纯文本文档和网页文件中,也有着重要用途。比如发现单词间的并发关系以及web的使用模式等,这些都是web数据挖掘、搜索及推荐的基础。

药物配伍查询解决方案设计

关联规则模型

关联规则是在数据库和数据挖掘领域中被发明并被广泛研究的一种重要模型,关联规则数据挖掘的主要目的是找出数据集中的频繁模式,即多次重复出现的模式和并发关系,即同时出现的关系,频繁和并发关系也被称作关联。

结合机器学习方法、数据清理、集成、变换和规约等技术对中医药方中原始数据进行了规范化处理,并用关联规则模型对药物配伍关系进行挖掘。


热门课程

R语言数据分析挖掘必知必会

面对扑面而来的数据浪潮,包含Google、Facebook等国际企业,都已采用R语言进行数据分析

探索课程

关联规则可以反映一个事物与其他事物之间的相互依存性和关联性使用关联规则挖掘算法,找到中药之间的高频组合以及强关联关系。

 得到最常用的药物配伍——对支持度和置信度进行排序

用网络图对常用的药物配伍关系进行可视化

聚类模型

更好的区分不同种类的药物配伍关系

为了解决昂贵中药材的廉价替代品问题,对药物的配伍规律和性味归经描述来衡量药物的相似度,根据相似度对药物进行聚类。通过理疗措施之间的相似性进行聚类,相当于治疗方案空间上的粗粒化。

 

网络图对每个种类进行可视化

 

 

 

药物配伍查询系统的实现

通过建立适用于临床的药物配伍查询系统,方便医务人员适时查询药物配伍及药品信息,促进临床合理用药。

最后,随着政府、企业、科研机构加大对智慧医院精准医疗的资源投入,大数据将持续发挥精准医疗发展助推器作用,推动精准医疗产业发展。


可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498