最大频繁项集

中文名最大频繁项集

表达式 D={T1,T2,...,Tn},i∈[1,n]

目录导航

定义

频繁项集

称I={i1, i2, ..., im}为项( Item) 的集合, D={T1, T2, ...,Tn},i∈[1,n]为事务数据集( Transaction Data Itemsets) , 事务Ti由I 中若干项组成。

设S 为由项组成的一个集合, S={i|i∈I}，简称项集( Itemset) 。包含k个项的项集称为k-项集。

S的支持度sup(S) =（包含项集S 的事务数量/D 中总的事务数量的百分比）x100%

若S 的支持度≥给定最小支持度，称S 为频繁项集( Frequent Itemset) 。t 为一条事务, 如果S⊆t, 则称事务t 包含S。

超集Superset

若一个集合S2中的每一个元素都在集合S1中，且集合S1中可能包含S2中没有的元素，则集合S1就是S2的一个超集。 S1是S2的超集，则S2是S1的真子集，反之亦然。

最大频繁项集

如果频繁项集L 的所有超集都是非频繁项集, 那么称L 为最大频繁项集或称最大频繁模式, 记为MFI (Maximal Frequent Itemset) 。频繁项集是最大频繁项集的子集。最大频繁项集中包含了频繁项集的频繁信息，且通常项集的规模要小几个数量级。所以在数据集中含有较长的频繁模式时挖掘最大频繁项集是非常有效的手段。

综上，最大频繁项集是各频繁k项集中符合无超集条件的频繁项集。