【机器学习】Apriori算法的工作原理是什么?

Apriori算法是一个用于发现频繁项集的指挥式算法。它的工作原理主要包括以下几个步骤:
一、候选项集生成
首先需要生成候选项集C1。
通常会遍历一次数据集,统计每个单一项的支持度。
选出支持度不小于最小支持度的项作为C1。

二、关联规则测试
对候选项集Ck,计算每个项集的支持度。
选出支持度不小于最小支持度的频繁项集Lk。

三、生成新的候选集
从上一级频繁集Lk中生成大小为k+1的候选项集Ck+1。
这里应用了Apriori算法的一个重要思想:
所有非空子集的支持度都不小于整个集合。

四、重复上述步骤
重复执行生成候选集、支持度测试、产生下一个候选集3个步骤,直到无法生成新的候选项集为止。

五、根据频繁项集生成规则
对得到的所有频繁项集,生成满足最小可信度的关联规则。

总的来说,Apriori算法的工作原理主要包括:

  1. 生成初级候选项集C1
  2. 计算候选项集的支持度
  3. 选出频繁项集Lk
  4. 根据Lk生成下级候选项集Ck+1
  5. 重复上述步骤直到不能生成候选项集
  6. 根据频繁项集生成关联规则

其核心思想在于:

  • 所有非空子集的支持度均不小于整个集合
  • 根据此性质,在已知频繁项集的基础上生成下级候选项集