【数据挖掘】Apriori算法

时间:2025-05-14 21:52:07

Apriori算法是经典的关联规则挖掘算法,用于从事务型数据库中发现频繁项集和强关联规则,特别常用于购物篮分析等场景。


???? 核心思想(Apriori原则)

一个项集是频繁的,前提是它的所有子集也必须是频繁的。
即:“若某项集不频繁,它的超集也一定不频繁”

这个原则用于大大减少候选项集的数量,提高挖掘效率。


???? Apriori算法执行步骤

下面是算法流程(以最小支持度为前提):

① 扫描数据库,找出所有频繁1项集(L1)

  • 统计每个单个商品出现的次数

  • 丢掉那些支持度小于最小阈值的项

② 生成候选2项集(C2),计算频繁2项集(L2)

  • 将L1中的元素两两组合成C2

  • 扫描数据库计算这些组合的支持度

  • 保留满足最小支持度的组合,得到L2

③ 使用 L2 构造 C3,找出 L3……

  • 重复步骤直到没有更多频繁项集为止

④ 基于频繁项集生成关联规则

  • 从每个频繁项集中拆分出可能的规则A⇒B

  • 计算这些规则的置信度和提升度

  • 筛选满