Rapidminer关联规则和文本挖掘模型对评论数据进行分析

关联规则是if / then语句,可帮助发现看似无关的数据之间的关系。关联规则的一个示例是“如果客户购买鸡蛋,那么他有80%的可能性也购买牛奶”。

由Kaizong Ye,Weilong Zhang撰写

关联规则包含两个部分,一个前提(if)和一个后果(then)。前项是在数据中找到的一个或多个项目。结果就是与前项组合在一起的项(或项集)

关联规则是通过分析频繁使用的“如果/然后”模式的数据并使用条件  支持  和  置信度  来确定最重要的关系来创建的。支持表示项目在数据库中出现的频率。置信度表示发现if / then语句为真的次数。使用FP-Growth运算符之类的运算符来挖掘频繁的if / then模式。“创建关联规则”运算符采用这些频繁项集并生成关联规则。

视频

在这个短片中,我们分享了如何在RapidMiner中对文本数据进行关联规则挖掘

这样的信息可以用作关于诸如促销价格或产品安置的市场活动的决定的基础。除了上述来自市场篮子分析的示例外,当今在许多应用程序领域中都采用了关联规则,包括Web使用挖掘,入侵检测和生物信息学。

输入项

  • 项目集(常用项目集)该输入端口需要频繁的项目集。诸如FP-Growth运算符之类的运算符可用于提供这些频繁项集。

输出量

  • 项目集(常用项目集)作为输入提供的项集将通过此端口传递,而不会更改为输出。这通常用于在其他运算符中重用相同的项目集,或在“结果”工作区中查看这些项目集。
  • 规则(关联规则)关联规则通过此输出端口传递。

参数

条件此参数指定用于选择规则的条件。

  • 置信度:规则的置信度定义为conf(X表示Y)= supp(X∪Y)/ supp(X)。阅读表达式时要小心:这里supp(X∪Y)的意思是“支持X和Y都出现的交易的发生”,而不是“支持X或Y都出现的交易的发生”。置信度范围为0到1。置信度是Pr(Y | X)的估计值,即在给定X的情况下观察Y的概率。
  • 提升:规则的提升定义为提升(X表示Y)= supp(X∪Y)/((supp(Y)x supp(X))或观察到的支持度与预期支持度之比(如果X和Y提升也可以定义为lift(X表示Y)= conf(X表示Y)/ supp(Y).lift度量X和Y与独立性之间的距离。其范围在0到正无穷大之间。值接近1表示X和Y是独立的,规则并不有趣。
  • conv:conv对规则方向敏感,即conv(X表示Y)与conv(Y表示X)不同。conv定义为conv(X表示Y)=(1-supp(Y))/(1-conf(X表示Y))
  • 增益:选择此选项时,使用增益theta参数计算增益。
  • laplace:选择此选项时,使用laplace k参数计算Laplace。
  • ps:选择此选项后,将使用ps标准进行规则选择。
  • min_confidence此参数指定规则的最小置信度范围:实数
  • min_criterion_value此参数指定所选条件的规则的最小值范围:实数
  • gain_theta该参数指定 在增益计算中使用的参数  Theta范围:实数
  • laplace_k此参数指定 在Laplace函数计算中使用的参数  k。范围:实数

可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!

 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498

关注有关新文章的微信公众号


永远不要错过任何见解。当新文章发表时,我们会通过微信公众号向您推送。

技术干货

最新洞察

This will close in 0 seconds