关联规则挖掘是一种无监督的学习方法，从交易数据中挖掘规则。

由Kaizong Ye，Sherry Deng撰写

它有助于找出数据集中的关系和一起出现的项目。

在这篇文章中，我将解释如何在R中提取关联规则。

关联规则模型是一种用于发现数据中不同项之间关联关系的数据分析模型。它通过分析大量数据，找出那些经常同时出现的项集，从而揭示数据中的潜在规律和模式。例如在超市销售数据中，关联规则模型可以发现顾客在购买面包的同时，经常也会购买牛奶，这样的关联关系可以帮助超市进行商品摆放、促销活动等决策。
关联规则模型适用于交易数据。交易数据的一个例子可以是客户的购物历史。

关联规则模型是一种特定的分析模型，它能够应用于交易数据。交易数据指的是与交易活动相关的数据，例如买卖商品、提供服务等过程中产生的数据。客户的购物历史就是交易数据的一种典型例子，它记录了客户在不同时间购买的商品信息，包括购买的商品种类、数量、价格等。关联规则模型可以通过分析客户的购物历史，发现不同商品之间的关联关系，例如哪些商品经常一起被购买，从而为商家提供有价值的决策依据，如商品推荐、库存管理等。

可下载资源

完整程序、数据和文档（word）

成为新会员获取本文分析的智能体、数据、代码、报告

加入会员群

作者

Weilong Zhang
✉ 联系我们

视频

关联规则模型、Apriori算法及R语言挖掘杂货店交易数据与交互可视化

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

数据分析的第一件事是了解目标数据结构和内容。出于学习的目的，我认为使用一个简单的数据集更好。

当寻找频繁项集时,频繁(frequent)的定义是什么?

最重要的是支持度和可信度。

1、一个项集的支持度(support)

被定义为数据集中包含该项集的记录所占的比例。支持度是针对项集来说的,因此可以定义一个最小支持度,而只保留满足最小支持度的项集。

2、可信度或置信度(confidence)

是针对一条诸如{尿布} {啤酒}的关联规则来定义的。这条规则的可信度被定义为“支持度({尿布, 啤酒})/支持度({尿布})”。

假设{尿布, 啤酒}的支持度为3/5,尿布的支持度为4/5,则“尿布啤酒”的可信度为3/4=0.75。简单来说，就是用户购买尿布的事件中包含“购买尿布和啤酒”的比率。这意味着对于包含“尿布”的所有记录,我们的规则对其中75%的记录都适用。

3、Lift（提升度）：表示“包含A的事务中同时包含B事务的比例”与“包含B事务的比例”的比值。公式表达：Lift=( P(A&B)/P(A))/P(B)=P(A&B)/P(A)/P(B)。提升度反映了关联规则中的A与B的相关性，提升度>1且越高表明正相关性越高，提升度<1且越低表明负相关性越高，提升度=1表明没有相关性。

为了减少频繁项集的生成时间，可以尽早的消除一些完全不可能是频繁项集的集合，用到Apriori的两条定律。

Apriori定律1：如果一个集合是频繁项集，则它的所有子集都是频繁项集。举例：假设一个集合{A,B}是频繁项集，即A、B同时出现在一条记录的次数大于等于最小支持度min_support，则它的子集{A},{B}出现次数必定大于等于min_support，即它的子集都是频繁项集。

Apriori定律2：如果一个集合不是频繁项集，则它的所有超集都不是频繁项集。举例：假设集合{A}不是频繁项集，即A出现的次数小于min_support，则它的任何超集如{A,B}出现的次数必定小于min_support，因此其超集必定也不是频繁项集。

一旦我们知道了这个模型，就可以很容易地把它应用于更复杂的数据集。

在这里，我们使用杂货店的交易数据。首先，我们创建一个数据框并将其转换为交易类型。

读取数据

n=500 # 交易数量

trans <- data.frame() # 收集数据的数据框架

视频

从决策树到随机森林：R语言信用卡违约分析信贷数据实例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

创建数据并将其收集到交易数据框中。

for(i in 1:n)
{
  count <- sample(1:3, 1) # 从1到3的物品计数
  如果(i %% 2 == 1)
  {
    if(!add_product %in% selected)
    {
      tran <- data.frame(items = add_product, tid = i)

检查交易数据框中的数据。

接下来，我们需要将生成的数据框转换为交易数据类型。

 as(split(\[, "items"\], \[, "tid"\]), "transa")

为了检查交易数据的内容，我们使用 inspect() 命令。

挖掘规则

sort(rules_1, dby = "confidence")

最受欢迎的见解

1.采用spss-modeler的web复杂网络对所有腧穴进行分析

2.用R语言和python进行社交网络中的社区检测

3.R语言文本挖掘NASA数据网络分析，tf-idf和主题建模

4.在R语言中使用航空公司复杂网络对疫情进行建模

5.python隶属关系图模型基于模型的网络中密集重叠社区检测

6.使用Python和SAS Viya分析社交网络

7.关联网络分析：已迁离北京外来人口的数据画像

8.情感语义网络：游记数据感知旅游目的地形象

9.用关联规则数据挖掘探索药物配伍中的规律

想了解更多关于模型定制、咨询辅导的信息？

✉

联系我们

…….

Python中的Apriori关联算法-市场购物篮分析

阅读文章 >

我们从上面的列表中获取第一个rhs项（规则后项）来检查该项的规则。但如果你知道目标项目，可以在参数中只写rhs=”melon”。

 inspect(rules_1@rhs\[1\])

> rhs_item <- gsub("\\\}","", rhs)

随时关注您喜欢的主题

我们为我们的rhs_item建立规则

按 “置信度 “排序并检查规则

sort(rules_2, "confidence")

结果可视化

最后，我们从规则集_2中绘制出前5条规则。

> plot(rules_2\[1:5\])

绘制全部规则

交互可视化

绘制出前5条规则

precision     =  3
igraphLayout     =  layout_nicely
list(nodes = nodes, edges = edges, nodesToDataframe = nodesToDataframe, 
            edgesToDataframe = edgesToDataframe,
x$legend <- legend
    htmlwidgets::createWidget( x, width = width, 
        height = height)