学习笔记
Apriori算法使用产生一计数的策略找出频繁项集。通过合并一对大小为k的频繁项集得到个大小为k+1的候选项集(称作候选产生步骤)。在候选项集剪枝步骤中,如果一个候选项集的任何一个子集是不频繁的,则该候选项集将被丢弃。假定将 Aprior算法用于下表所示数据集,最小支持度为30%,即任何一个项集在少于3个事务中出现就被认为是非频繁的。 表:购物蓝事务的例子 顾客ID 购买项 1 {a,d,e} 1 {a,b,c,e} 2 {a,b,d,e} 2 {a,c,d,e} 3 {b,c,e} 3 {b,d,e} 4 {c,d} 4 {a,b,c} 5 {a,d,e} 5 {a,b,e} (a)画出表小表所示数据集的项集格。用下面的字母标记格中每个结点。 N:如果该项集被 Apriori算法认为不是铁选项集。一个项集不是候选项集有兩种可能的原因:它没有在候选项集产生步骤产生,或它在候选项集产生步骤产生,但是由于它的一个子集是非频繁的而在候选项集的枝步骤被丢掉 F:如果该候选项樂被 Apriori算法认为是频繁的。 I如果经过支持度计数后,该横选项集被发现是频繁的。 (b)频繁项集的百分比是多少?(考虑格中所有的集) (c)对于该数据集, Apriori算法的明被率是多少?(剪枝率定义为由于如下原因不认为是侯选的项集所占的百分比;在侯选项集产生时未被产生,或在侯选剪枝步骤被丢掉) (d)假警告率是多少?(假警告率是指经过支待度计算后被发现是非频繁的候选项集所占的自分比。)
2020-06-07
学员中心
登录学员中心 我要报名 -
联系我们
中国信息协会市场研究业分会 中经数(北京)数据应用技术研究院
北京市东城区东四十条21号
监督电话
010-64642001
@ Copyright BDA WebSite. Collect From 大数据分析师官网 京ICP备2021005223号-1