Ⅰ 考核能力要求
《数据挖掘》是中级数据分析师证书考试必考的课程之一。通过本课程的学习,要求考生掌握数据挖掘的基本概念、原理、思想方法,并能够熟练地运用这些方法分析解决社会经济、管理服务、金融风险、科学技术等不同行业领域相关的实际问题。
按照《BDA数据分析职业技能等级标准》中级数据分析师对知识与能力的规格要求,结合本
课程不同知识点的难易程度,将其划分为识记、领会、简单应用与综合应用四个递进的层次来加以考核。
识记:对于本课程中的基本概念、专业名词与一些基本的计算公式,要求考生必须熟记,并能与其他概念、名词与公式加以区别,主要考查考生对基本知识的掌握程度。
领会:在识记的基础上,要求考生对本课程的各种数据挖掘方法的基本思想、原理与实现步骤有深刻的理解,不仅知道应该做什么、怎么做,而且还要知道为什么要这样做,主要考查考生对专业知识与技能的领悟程度。
简单应用:在领会的基础上,要求考生根据本课程中的基本概念、基本原理与基本方法,能够将相应的数据挖掘方法运用于比较简单的实际问题的分析与判断,主要考查考生在数据挖掘方面是否具有专业应用能力。
综合应用:在简单应用的基础上,要求考生能够结合多个相关知识点,综合分析和解释比较复杂的实际问题,主要考查考生在数据挖掘方面是否具有综合创新能力。
Ⅱ 考试形式和试卷结构
1. 本课程采取闭卷笔试的考试方式,考试时间为150分钟,试卷总分为100分,60分为及格线。考试过程中,考生可携带计算器(不带存储功能)应考。
2. 本课程的考核范围包括本大纲考试内容所规定的知识点及知识点下的知识细目。
3. 本课程在试卷中对不同能力层次要求的分数比例为:识记题占15%,领会题占60%,分析与计算题占18%,综合应用题占7%。
4. 试卷中试题的难易程度分为:易、较易、较难、难四个等级,每份试卷中不同难度试题的分数比例为2:4:3:1。
5. 本课程考试试卷中题型一般包括单项选择题、多项选择题、简单题、分析与计算题、综合应用题共5种。
Ⅲ 考试内容与考核要求
第1章 数据挖掘导论
一、考试内容
1. 数据挖掘的必要性
(1)社会经济发展对数据产业提出的新需求
(2)信息技术进步对获取数据价值的新驱动
2. 数据挖掘概述
(1)数据挖掘的主要思想
(2)数据挖掘的定义
(3)数据挖掘的特征
(4)数据挖掘的任务
3. 数据挖掘的实现过程
(1)数据挖掘的基本步骤
(2)数据挖掘的逻辑框图
4. 数据挖掘的常用方法
(1)统计分析方法
(2)机器学习方法
(3)常用方法的对比分析
5. 数据挖掘的常用软件工具
(1)常用软件工具
(2)Python的安装和使用
二、考核要求
1. 数据挖掘的必要性
识记:数据挖掘的产生背景。
2. 数据挖掘概述
识记:数据挖掘的基本思想和定义。
领会:数据挖掘的特征及任务。
3. 数据挖掘的实现过程
识记:数据挖掘的实现流程。
领会:数据挖掘模型训练的基本过程,常用的模型评估指标。
4. 数据挖掘的常用方法
识记:数据挖掘常用方法的基本特征。
领会:针对实际问题如何选择数据挖掘方法。
5. 数据挖掘的常用软件工具
识记:常用数据挖掘软件的特征。
领会:Python软件的安装及其基本操作命令。
第2章 多元回归分析
一、考试内容
1.多元回归分析概述
2.多元回归分析的基本原理
(1)指数族分布与广义线性模型
(2)参数估计
(3)统计检验
(4)模型的比较与诊断
3. 常见的多元回归模型
(1)正态线性模型
(2)逻辑回归模型
(3)泊松回归模型
4. 多元线性回归的具体方法
(1)多元线性回归的步骤
(2)多元回归分析流程
5. Python软件实现与应用案例分析
(1)多元回归分析的Python软件实现
(2)应用案例分析:财产保险公司汽车保险问题研究
二、考核要求
1.多元回归分析概述
识记:经典线性回归模型与广义线性模型的关系。
领会:广义线性模型的基本特征。
2.多元回归分析的基本原理
识记:迭代加权最小二乘估计,评价模型拟合优度的常用准则。
领会:指数族分布及广义线性模型的定义,广义线性模型比较与诊断的常用统计量。
3. 常见的多元回归模型
识记:回归系数的解释,模型的检验。
领会:正态线性模型、二分类因变量的逻辑回归模型、泊松回归模型的形式及适用条件;LASSO回归、岭回归的特征。
4. 多元线性回归的具体方法
领会:多元线性回归的实现步骤。
5. Python软件实现与应用案例分析
识记:回归模型评估及选择方法的Python软件实现。
领会:正态线性模型、逻辑回归模型、泊松回归模型的Python软件实现方法。
简单应用:利用Python软件对具有实际应用背景的一些简单数据进行回归分析。
综合应用:利用Python软件对行业领域内某些实际问题的复杂数据进行回归分析。
第3章 主成分分析
一、考试内容
1. 概述
2. 主成分分析的基本原理
(1)主成分分析的基本思想
(2)主成分分析的模型
(3)主成分个数的确定
3. 主成分分析的具体方法
(1)主成分分析的基本步骤
(2)主成分分析的逻辑框图
4. Python软件实现与应用案例分析
(1)主成分分析的Python软件实现
(2)应用案例分析:上市公司财务业绩评价体系
二、考核要求
1. 概述
识记:主成分分析的目的。
领会:主成分分析的特征。
2. 主成分分析的基本原理
识记:主成分分析的数学原理。
领会:主成分分析的基本思想,主成分的选取,主成分的表示。
3. 主成分分析的具体方法
领会:主成分分析的实现步骤。
4. Python软件实现与应用案例分析
识记:适用性检验、主成分表示及样本综合得分的Python软件实现。
领会:主成分分析的Python软件实现方法,主成分的解析。
简单应用:利用Python软件对具有实际应用背景的一些简单数据进行主成分分析。
综合应用:利用Python软件对行业领域内某些实际问题的复杂数据进行主成分分析。
第4章 因子分析与对应分析
一、考试内容
1. 概述
(1)因子分析概述
(2)对应分析概述
2. 因子分析的基本原理
(1)因子分析的基本思想
(2)因子分析模型
(3) 模型的参数估计
(4)因子旋转与因子得分
3. 因子分析的具体方法
(1)因子分析的基本步骤
(2)因子分析的逻辑框图
4. 对应分析的基本原理
(1)对应分析的基本思想
(2)对应分析模型
5. 对应分析的具体方法
(1)对应分析的基本步骤
(2)对应分析的逻辑框图
6. Python软件实现与应用案例分析
(1)因子分析的Python软件实现
(2)对应分析的Python软件实现
(3)应用案例分析:我国城镇居民消费结构分析
二、考核要求
1. 概述
识记:因子分析的目的,对应分析的目的。
领会:因子分析与主成分分析的差异,对应分析与因子分析的关系。
2. 因子分析的基本原理
识记:因子分析的数学原理。
领会:因子分析的基本思想,主成分法求因子载荷矩阵,因子旋转与因子得分,公共因子的表示。
3. 因子分析的具体方法
领会:因子分析的实现步骤。
4. 对应分析的基本原理
识记:对应分析的数学原理。
领会:对应分析的基本思想,型因子分析与型因子分析的关系。
5. 对应分析的具体方法
领会:对应分析的实现步骤。
6. Python软件实现与应用案例分析
识记:适用性检验、公共因子、公共因子综合得分的Python软件实现;变量与样品公共因子得分散点图的Python软件实现。
领会:因子分析的Python软件实现方法,公共因子的解析;对应分析的Python软件实现方法,对应分析的结果解析。
简单应用:利用Python软件对具有实际应用背景的一些简单数据进行因子分析和对应分析。
综合应用:利用Python软件对行业领域内某些实际问题的复杂数据进行因子分析和对应分析。
第5章 判别分析
一、考试内容
1. 概述
(1)产生背景
(2)基本概念
(3)常见类型
2. 距离判别
(1)欧式距离和马氏距离
(2)两总体距离判别
(3)多总体距离判别
(4)误判概率
3. 贝叶斯判别
(1)最大后验准则
(2)最小期望误判代价准则
4. 费希尔判别
(1)费希尔判别的基本思想
(2)费希尔判别函数的选择
5. 判别分析中的变量选择问题
(1)逐步判别的思想
(2)逐步判别的计算方法
6. Python软件实现与应用案例分析
(1)逐步判别的Python实现
(2)判别分析的具体实施步骤
(3)应用案例分析:企业是否进入深圳某园区
二、考核要求
1. 概述
识记:判别分析的基本概念及常见类型。
2. 距离判别
识记:距离判别的数学原理。
领会:欧式距离和马氏距离,距离判别的基本思想、判别函数,误判概率。
3. 贝叶斯判别
识记:贝叶斯判别的数学原理。
领会:贝叶斯判别的基本思想、判别准则,最小期望误判代价准则。
4. 费希尔判别
识记:费希尔判别的数学原理。
领会:费希尔判别的基本思想,贝叶斯判别的判别准则。
5. 判别分析中的变量选择问题
识记:逐步判别的基本思想和原理。
领会:逐步判别的计算步骤;距离判别、贝叶斯判别及费希尔判别的适用条件。
6. Python软件实现与应用案例分析
识记:判别分析模型的评估。
领会:逐步判别、距离判别、贝叶斯判别及费希尔判别的Python软件实现。
简单应用:利用Python软件对具有实际应用背景的一些简单数据进行判别分析。
综合应用:利用Python软件对行业领域内某些实际问题的复杂数据进行判别分析。
第6章 聚类分析
一、考试内容
1. 概述
(1)聚类分析简介
(2)聚类分析思想
(3)簇的形态
2. K均值聚类算法
(1)K均值聚类算法的步骤
(2)K均值聚类算法的注意事项
(3)K均值聚类算法的变种
3. 凝聚层次聚类算法
(1)凝聚层次聚类算法的步骤
(2)凝聚层次聚类算法的注意事项
4. DBSCAN 聚类算法
(1)DBSCAN聚类算法的步骤
(2)DBSCAN聚类算法的注意事项
5. 其他聚类算法
(1)EM聚类算法
(2)SOM聚类算法
(3)Mean Shift 聚类算法
(4)社区检测聚类算法
6. Python软件实现与应用案例分析
(1)聚类分析的Python软件实现
(2)应用案例分析:我国人力资源结构分析
二、考核要求
1. 概述
识记:聚类分析的基本概念,聚类分析的基本思想。
领会:常用的距离度量方法,聚类分析的一些主要问题。
2. K均值聚类算法
识记:二分K均值和Mini-Batch-KMeans算法的基本思想。
领会:K均值聚类算法的基本原理、实现步骤;K均值聚类算法的参数选择及其适用条件。
3. 凝聚层次聚类算法
识记:层次聚类算法的基本思想。
领会:凝聚层次聚类算法的实现步骤;凝聚层次聚类算法进行簇合并的链接方法;树状图的解读。
4. DBSCAN 聚类算法
识记:密度的概念。
领会:DBSCAN聚类算法的实现步骤、参数选择。
5. 其他聚类算法
识记:EM聚类、SOM聚类、Mean Shift 聚类、BSCAN聚类、社区检测聚类算法的基本原理。
领会:EM聚类算法的实现步骤。
6. Python软件实现与应用案例分析
识记:SOM聚类、Mean Shift 聚类、社区检测聚类算法的Python软件实现。
领会:K均值聚类、凝聚层次聚类、DBSCAN聚类、EM聚类算法的Python软件实现,聚类模型的评估。
简单应用:利用Python软件对具有实际应用背景的一些简单数据进行聚类分析。
综合应用:利用Python软件对行业领域内某些实际问题的复杂数据进行聚类分析。
第7章 典型相关分析
一、考试内容
1. 概述
2. 典型相关分析的基本原理
(1)典型相关分析的基本思想
(2)典型相关分析模型
(3)样本典型相关
(4)典型相关系数的显著性检验
3. 典型相关分析的具体方法
(1)典型相关分析的基本步骤
(2)典型相关分析的逻辑框图
4. Python软件实现与应用案例分析
(1)典型相关分析的Python软件实现
(2)应用案例分析:能源消费量和经济增长之间的关系
二、考核要求
1. 概述
识记:典型相关分析的目的及应用场景。
2. 典型相关分析的基本原理
识记:典型相关分析的数学原理。
领会:典型相关分析的基本思想,典型相关变量的选择方法,典型相关系数的显著性检验。
3. 典型相关分析的具体方法
领会:典型相关分析的实现步骤。
4. Python软件实现与应用案例分析
识记:典则结构矩阵、典型冗余分析的Python软件实现。
领会:典型相关分析的Python软件实现,典型相关分析结果的解析。
简单应用:利用Python软件对具有实际应用背景的一些简单数据进行典型相关分析。
综合应用:利用Python软件对行业领域内某些实际问题的复杂数据进行典型相关分析。
第8章 关联分析
一、考试内容
1. 概述
(1)思想概述
(2)基本概念
2. Apriori算法
(1)先验原理
(2)寻找频繁项集
(3)生成关联规则
(4)逻辑框图
3. FP增长算法
(1)构建 FP增长树
(2)挖掘频繁项集
4. 关联分析的Python软件实现
(1)Apriori算法的Python软件实现
(2)FP增长算法的Python软件实现
(3)应用案例分析:超市的购物篮数据分析
二、考核要求
1. 概述
识记:关联分析的基本思想,关联分析的基本概念。
领会:关联规则的度量指标。
2. Apriori算法
识记: Apriori算法的基本思想。
领会:先验原理,Apriori算法的实现过程。
3. FP增长算法
识记:应用FP增长算法寻找频繁项集的基本思想。
领会:FP增长树的构建,频繁项集的生成。
4. 关联分析的Python软件实现
领会:Apriori算法及FP增长算法的Python软件实现,关联分析的结果解析。
简单应用:利用Python软件对具有实际应用背景的一些简单数据进行关联分析。
综合应用:利用Python软件对行业领域内某些实际问题的复杂数据进行关联分析。
第9章 异常分析
一、考试内容
1. 概述
(1)异常数据的概念
(2)异常分析的方法
2. 基于统计方法的异常分析
(1)一元正态分布的异常分析
(2)多元正态分布的异常分析
(3)混合模型的异常分析
3. 基于邻近度的异常分析
(1)数据邻近度的相关概念
(2)基于邻近度的异常分析原理
4. 基于密度的异常分析
(1)数据密度的相关概念
(2)基于密度的异常分析原理
5. Python软件实现与应用案例分析
(1)基于统计方法的异常分析Python软件实现
(2)基于邻近度的异常分析Python软件实现
(3)基于密度的异常分析Python软件实现
(4)应用案例分析:信用卡欺诈检测
二、考核要求
1. 概述
识记:异常数据的概念,常见的异常成因,异常分析的常用方法。
领会:基于聚类技术异常分析的原理,异常分析的评估指标。
2. 基于统计方法的异常分析
识记:正态分布的异常分析。
领会:原则,Grubbs方法。
3. 基于邻近度的异常分析
识记:数据邻近度的相关概念。
领会:K-最近邻算法的基本原理,基于K-最近邻算法的异常分析。
4. 基于密度的异常分析
识记:数据密度的相关概念,基于密度的异常分析原理。
领会:局部因子离群检测方法(LOF)。
5. Python软件实现与应用案例分析
(1)基于统计方法的异常分析Python软件实现
(2)基于邻近度的异常分析Python软件实现
(3)基于密度的异常分析Python软件实现
(4)应用案例分析:信用卡欺诈检测
识记:数据下采样及过采样的Python软件实现。
领会:基于统计方法、K-最近邻算法、LOF算法的异常分析的Python软件实现,异常分析模型评估的Python软件实现。
简单应用:利用Python软件对具有实际应用背景的一些简单数据进行异常分析。
综合应用:利用Python软件对行业领域内某些实际问题的复杂数据进行异常分析。
第10章 贝叶斯方法
一、考试内容
1. 概述
(1)贝叶斯方法概述
(2)贝叶斯分类方法
2. 贝叶斯分类基本原理
(1)朴素贝叶斯分类方法
(2)半朴素贝叶斯分类方法
(3)贝叶斯网络
(4)学习贝叶斯网络
3. 贝叶斯分类具体方法
(1)朴素贝叶斯方法
(2)叶斯网络方法
4. Python软件实现与应用案例分析
(1)朴素贝叶斯分类算法的Python软件实现
(2)应用案例分析(一):基于影像数据的乳腺肿瘤患者分类
(3)应用案例分析(二):泰坦尼克事件中乘客存活情况的预测
二、考核要求
1. 概述
识记:朴素贝叶斯法、半朴素贝叶斯法、贝叶斯网络的基本特征。
2. 贝叶斯分类基本原理
识记:朴素贝叶斯法、半朴素贝叶斯法、贝叶斯网络的的基本原理,贝叶斯修正方法。
领会:朴素贝叶斯分类算法。
3. 贝叶斯分类具体方法
识记:贝叶斯方法的实现流程。
领会:朴素贝叶斯算法的实现流程。
4. Python软件实现与应用案例分析
识记:高斯朴素贝叶斯、多项式朴素贝叶斯、伯努利朴素贝叶斯的适用条件。
领会:朴素贝叶斯分类算法的Python软件实现。
简单应用:应用朴素贝叶斯分类模型,借助Python软件对具有实际应用背景的一些简单数据进行分析。
综合应用:应用朴素贝叶斯分类模型,借助Python软件对行业领域内某些实际问题的复杂数据进行综合分析。
第11章 支持向量机
一、考试内容
1. 概述
(1)支持向量机的特点
(2)支持向量机的类型
(3)支持向量机的应用
2. 硬间隔支持向量机
(1)完全线性可分问题
(2)硬间隔支持向量机
(3)硬间隔与支持向量
3. 软间隔支持向量机
(1)硬间隔支持向量机的缺陷
(2)软间隔支持向量机
(3)软间隔与支持向量
4. 线性支持向量机的对偶算法
(1)凸二次规划的对偶理论
(2)硬间隔支持向量机的对偶算法
(3)软间隔支持向量机的对偶算法
5. 非线性支持向量机
(1)非线性支持向量机——函数变换法
(2)基于核函数的非线性SVM
(3)常用的核函数
6. 多分类支持向量机
(1)“一对一”方法(投票法)
(2)“一对多”方法(打分法)
7. Python软件实现与应用案例分析
(1)支持向量机的Python软件实现
(2)应用案例分析:制造业企业经营风险评估问题
二、考核要求
1. 概述
识记:支持向量机的类型及应用。
领会:支持向量机的特点。
2. 硬间隔支持向量机
识记:完全线性可分问题,硬间隔支持向量机的数学模型。
领会:硬间隔支持向量机算法的实现步骤,支持向量的意义及作用。
3. 软间隔支持向量机
识记:硬间隔支持向量机的缺陷,软间隔支持向量机的数学模型,松弛变量的作用及意义。
领会:硬间隔支持向量机算法的实现步骤,软间隔支持向量机的支持向量。
4. 线性支持向量机的对偶算法
识记:凸二次规划的对偶理论,硬间隔支持向量机对偶算法、软间隔支持向量机对偶算法的数学原理。
领会:硬间隔支持向量机对偶算法、软间隔支持向量机对偶算法的实现步骤。
5. 非线性支持向量机
识记:函数变换法,非线性支持向量机的数学原理。
领会:常用的核函数类型,基于核函数的支持向量机算法的实现过程。
6. 多分类支持向量机
识记:“一对一”方法,“一对多”方法。
7. Python软件实现与应用案例分析
识记:支持向量机模型评估及模型预测的Python软件实现。
领会:支持向量机模型的Python软件实现。
简单应用:应用支持向量机模型,借助Python软件对具有实际应用背景的一些简单数据进行分析。
综合应用:应用支持向量机模型,借助Python软件对行业领域内某些实际问题的复杂数据进行综合分析。
第12章 决策树及集成学习
一、考试内容
1. 概述
(1)问题引例和基本概念
(2)决策树的构造
(3)决策树学习算法
2. 属性选择度量
(1)信息增益
(2)增益率
(3)基尼指数
3. 树剪枝
4. 集成学习
(1)集成学习的基本概念及关键问题
(2)集成学习方法分类
(3)Bagging与随机森林算法
(4)常见的Boosting系列方法
5. Python软件实现与应用案例分析
(1)决策树Python软件实现
(2)随机森林Python软件实现
(3)应用案例分析:健康产业运行监测中财务数据审核问题
二、考核要求
1. 概述
识记:决策树的基本概念。
领会:构建决策树的基本算法。
2. 属性选择度量
(1)信息增益
(2)增益率
(3)基尼指数
识记:信息增益、增益率、基尼指数。
领会: ID3、C4.5、CART算法。
3. 树剪枝
识记:“预剪枝”和“后剪枝”的基本思路。
4. 集成学习
识记:集成学习的基本概念,个体学习器的集成策略,Boosting和Boosting的基本思想。
领会: 随机森林算法,AdaBoost算法。
5. Python软件实现与应用案例分析
识记:模型评估及模型预测的Python软件实现。
领会:决策树、随机森林、AdaBoost算法的Python软件实现。
简单应用:应用决策树、随机森林或AdaBoost算法,借助Python软件对具有实际应用背景的一些简单数据进行分析。
综合应用:应用决策树、随机森林或AdaBoost算法,借助Python软件对行业领域内某些实际问题的复杂数据进行综合分析。
第13章 人工神经网络
一、考试内容
1. 概述
(1)神经网络的发展简史
(2)神经网络的应用
2. 神经网络的基本概念
(1)生物神经元
(2)人工神经元
(3)神经网络模型
(4)神经网络的学习规则
3. 单层感知器
(1)单层感知器模型
(2)单层感知器的学习规则
(3)单层感知器的逻辑框图
(4)单层感知器的局限性
4. BP神经网络
(1)BP算法
(2)BP算法的逻辑框图
(3)BP算法的改进
(4)BP算法的局限性
5. RBF神经网络
(1)RBF神经网络模型
(2)RBF神经网络的参数学习方法
(3)RBF网络与BP网络的比较
6. Python软件实现与应用案例分析
(1)单层感知器的Python软件实现
(2)BP神经网络的Python软件实现
(3)RBF神经网络的Python软件实现
(4)应用案例分析(一) 鸢尾花的分类
(5)应用案例分析(二) 上证综合指数收盘价的预测
二、考核要求
1. 概述
识记:神经网络的发展简史,神经网络的应用领域。
2. 神经网络的基本概念
识记:神经网络的基本模型,神经网络的学习规则。
领会:常用的激活函数类型,前向神经网络的数学模型,针对实际问题的神经网络模型设计。
3. 单层感知器
识记:单层感知器的基本模型,单层感知器的学习规则。
领会:单层感知器的设计,单层感知器的局限性。
4. BP神经网络
识记:BP算法的数学原理;加入动量系数的BP算法;可变学习速度的BP算法。
领会:BP算法的实现步骤,BP算法的局限性。
5. RBF神经网络
识记:RBF神经网络的数学原理,RBF神经网络与BP神经网络的区别。
领会:RBF神经网络的参数学习方法。
6. Python软件实现与应用案例分析
识记:单层感知器、RBF神经网络的Python软件实现。
领会:BP神经网络的模型构建;BP神经网络的Python软件实现;神经网络模型评估的Python软件实现。
简单应用:应用BP神经网络或RBF神经网络,借助Python软件对具有实际应用背景的一些简单数据进行分析。
综合应用:应用BP神经网络或RBF神经网络,借助Python软件对行业领域内某些实际问题的复杂数据进行综合分析。
本大纲由中国财政经济出版社 出版发行
书号:9787509592892