FP-growth算法是一种高效发现频繁集的方法。例如你在搜索引擎中搜索一个词,它会自从补全查询词项,该处用到了FP-growth算法,通过查看互联网上的用词来找出经常在一块出现的词。【FP(Frequent Pattern)】
FP-growth算法基于Apriori算法,但是比Apriori算法执行速度快,通常性能要好两个数量级以上。FP-growth算法虽然能更高效地发现频繁项集,但是不能用于发现关联规则。
FP-growth算法将数据集存储在一个特定的FP树的结构之后发现频繁项集或频繁项对,即常在一块出现的元素项的集合FP树。FP-growth算法只需要对数据库进行两次扫描,而Apriori算法对于每个潜在的频繁项集都会扫描数据集判定给定模式是否频繁,因此FP-growth算法速度比Apriori算法快。
FP-growth发现频繁项集的过程如下:
(1)构建FP树
(2)从FP树中挖掘频繁项集