考虑表7-12所示数据集。第一个属性是连续的,而其余两个属性是非对称二元的。一个规则是强规则,如果它的支持度超过15%且置信度超过60%。下表给出的数据支持如下两个强规则:
(1){(1≤A≤2),B=1}→{C=1}
(2){(5≤A≤8),B=1}→{C=1}
表712习题3的据集
A
B
C
1
1
1
2
1
1
3
1
0
4
1
0
5
1
1
6
0
1
7
0
0
8
1
1
9
0
0
10
0
0
11
0
0
12
0
1
(a)计算这两个规则的支持度和置信度。
(b)为了使用传统的 Apriori算法找出这些规则,我们需要离散化连续属性A.假定我们使用等宽分箱方法离散化该数据,其中bin- width=2,3,4。对于每个bim-widh,上面两个规则是否能够被 Aprior算法发现?(注意,由于属性A可能具有较宽或较窄的区间,规则不一定与前而的规则完全同。)对于每个与前面规则对应的规则,计算其支持度和置信度。
(c)评述使用等宽分箱方法对上述数据集分类的有效性。是否有合适的箱宽度,以便很好地发现上面两个规则?如果没有,可以使用何种其他方法,以确保能够同时发现以上两个规则?
2020-07-14