Apriori算法是一个用于发现频繁项集的指挥式算法。它的工作原理主要包括以下几个步骤:
一、候选项集生成
首先需要生成候选项集C1。
通常会遍历一次数据集,统计每个单一项的支持度。
选出支持度不小于最小支持度的项作为C1。
二、关联规则测试
对候选项集Ck,计算每个项集的支持度。
选出支持度不小于最小支持度的频繁项集Lk。
三、生成新的候选集
从上一级频繁集Lk中生成大小为k+1的候选项集Ck+1。
这里应用了Apriori算法的一个重要思想:
所有非空子集的支持度都不小于整个集合。
四、重复上述步骤
重复执行生成候选集、支持度测试、产生下一个候选集3个步骤,直到无法生成新的候选项集为止。
五、根据频繁项集生成规则
对得到的所有频繁项集,生成满足最小可信度的关联规则。
总的来说,Apriori算法的工作原理主要包括:
- 生成初级候选项集C1
- 计算候选项集的支持度
- 选出频繁项集Lk
- 根据Lk生成下级候选项集Ck+1
- 重复上述步骤直到不能生成候选项集
- 根据频繁项集生成关联规则
其核心思想在于:
- 所有非空子集的支持度均不小于整个集合
- 根据此性质,在已知频繁项集的基础上生成下级候选项集