《数据分析》是初级数据分析师证书考试必考的课程之一。通过本课程的学习,要求考生掌握数据分析的基本概念、原理、思想与方法,并能够熟练地运用这些方法分析、解决社会经济、管理服务、金融风险、科学技术等不同行业领域相关的实际问题。
按照《BDA数据分析职业技能等级标准》初级数据分析师对知识与能力的规格要求,结合本课程不同知识点的难易程度,将其划分为识记、领会、简单应用与综合应用四个递进的层次来加以考核。
识记:对于本课程中的基本概念、专业名词与一些基本的统计计算公式,要求考生必须熟记,并能与其它概念、名词与公式加以区分,主要考查考生对基本知识的掌握程度。
领会:在识记的基础上,要求考生对本课程中的各种数据分析方法的基本思想、原理与分析步骤有深刻的理解,不仅知道应该做什么、怎样做,而且还要知道为什么要这样做,主要考查考生对专业知识与技能的领悟程度。
简单应用:在领会的基础上,要求考生根据本课程中的基本概念、基本原理与基本方法,并能够将相应的数据分析方法运用于对比较简单的实际问题的分析与判断,主要考查考生在数据分析方面是否具有初步的专业应用能力。
综合应用:在简单应用的基础上,要求考生能用学过的多个知识点,综合分析和解释比较复杂的实际问题,主要考查考生在数据分析方面是否具有初步的综合创新能力。
1.本课程采取闭卷笔试的考试方式,考试时间为150分钟,试卷总分为100分,60分为及格线。考试过程中,考生可携带计算器(不带存储功能)应考。
2.本课程的考核范围包括本大纲考试内容所规定的知识点及知识点下的知识细目。
3.本课程在试卷中对不同能力层次要求的分数比例为:识记题占15%,领会题占60%,分析与计算题占18%,综合应用题占7%。
4.试卷中试题的难易程度分为:易、较易、较难、难四个等级。每份试卷中不同难度试题的分数比例为2∶4∶3∶1。
5.本课程考试试卷中题型一般包括单项选择题、多项选择题、简答题、分析与计算题、综合应用题共5种。
1. 数据及其分类
(1) 数据的基本概念
(2) 数据的分类
2. 数据的价值与获取
(1) 样本数据的价值与获取
(2) 大数据的价值与获取
3. 数据分析的基本问题
(1) 数据分析的特点
(2) 数据分析的基本原则
(3) 数据分析的一般步骤
(4) 数据分析的常用方法
(5) 常用的数据分析软件
1.数据及其分类
识记:数据的概念、数据分类的常用方法。
领会:在不同视角下,各种不同类型数据所具有的主要特性。
2. 数据的价值与获取
识记:样本数据的价值体现、大数据的价值体现。
领会:样本数据与大数据价值的获取方式。
3. 数据分析的基本问题
识记:数据分析的特点、数据分析的常用方法、常用的数据分析软件
领会:数据分析的基本原则与一般步骤。
1. 数据收集
(1) 二手资料数据的收集
(2) 样本数据的收集
(3) 大数据的收集
2. 数据存储
(1) 数据规模的度量
(2) 数据存储系统
(3) 数据存储与管理
(4) 大数据存储
3. 数据预处理
(1) 数据预处理的含义
(2) 数据预处理的基本原则
(3) 数据预处理的基本流程
(4) 数据预处理的方法
(5) 常用的数据分析软件
4. 数据预处理的R软件实现
(1) 数据读入与存储
(2) 随机抽样
(3) 缺失数据处理
(4) 数据集成
(5) 数据转换
1.数据收集
识记:二手资料数据收集的途径、样本数据收集的途径、大数据收集的途径。
领会:二手资料数据收集的具体方法、样本数据收集的具体方法、大数据收集的方法。
2. 数据存储
识记:数据规模常用的度量单位、数据存储系统的种类、数据存储与管理的三个阶段、常见的大数据存储系统
领会:数据存储系统的构成、大数据存储技术的发展与存储模式。
3. 数据预处理
识记:数据预处理的基本原则、基本流程。
领会:数据预处理的含义、数据预处理的常用方法。
4. 数据预处理的R软件实现
识记:利用R进行数据读入与存储、随机抽样、缺失数据处理、数据集成、数据转换的常用函数。
领会:利用R软件实现数据预处理的主要方法。
简单应用:利用R软件对具有实际应用背景单一变量的数据进行简单的预处理。
综合应用:利用R软件对行业领域中某些实际问题的多变量数据进行常规的数据预处理工作。
1. 数据可视化简介
(1) 数据可视化的基本概念
(2) 数据可视化的发展历史
(3) 数据可视化的基本作用
(4) 数据可视化的一般流程
(5) 数据可视化的软件工具
2. 单变量数据可视化
(1) 条状图
(2) 饼图
(3) 玫瑰图
(4) 词云图
3. 数据预处理
(1) 散点图
(2) 折线图
(3) 平行坐标图
(4) 桑基图
4. 空间数据可视化
(1) 地图的基础数据
(2) 空间数据可视化的呈现
(3) 可互动式的空间数据可视化
5. 数据预处理的R软件实现
(1) R软件常用的数据可视化系统
(2) 单变量数据可视化的R软件实现
(3) 多变量数据可视化的R软件实现
(4)空间数据可视化的R软件实现
6. 数据可视化的注意事项
1.数据可视化简介
识记:数据可视化的基本概念、发展历史、基本作用与软件工具。
领会:数据可视化的基本原理与一般流程。
2. 单变量数据可视化
识记:条状图、饼图、玫瑰图与词云图的应用背景。
领会:条状图、饼图、玫瑰图与词云图的绘制原理与方法。
3. 数据预处理
识记:散点图、折线图、平行坐标图与桑基图的应用背景。
领会:散点图、折线图、平行坐标图与桑基图的绘制原理与方法。
4. 空间数据可视化
识记:空间数据可视化的类型。
领会:地图基础数据的获取、空间数据可视化的呈现原理与方法、可互动式空间数据可视化的具体方法。
5. 数据可视化的R软件实现
识记:R软件中常用的数据可视化系统。
领会:利用R软件进行单变量、多变量以及空间数据可视化的方法。
6. 数据可视化的注意事项
识记:数据可视化的基本要求。
领会:在数据可视化过程中如何选择图形元素。
简单应用:利用R软件对具有实际应用背景单一变量的数据进行可视化分析。
综合应用:利用R软件对行业领域中某些实际问题的多变量数据进行数据可视化分析。
1. 描述性分析概述
(1) 基本概念
(2) 离散型随机变量要点回顾
(3) 未分组数据的描述性分析概要
(4) 分组数据的描述性分析概要
(5) 描述性统计量概述
2. 数据的集中趋势分析
(1) 平均数
(2) 中位数
(3) 分位数
(4) 众数
(5)算术平均数、中位数、众数的比较
3. 数据的离散程度分析
(1) 极差
(2) 四分位差
(3) 平均差
(4) 方差与标准差
(5) 变异系数
4. 数据的偏度与峰度
(1) 偏度
(2) 峰度
(3) 关于偏度、峰度的注意事项
5. 数据分布的图形描述
(1) 箱线图
(2) 直方图
(3) 经验分布函数图
(4) 正态QQ图
6. 描述性分析的R软件实现
(1) 描述性统计量的计算
(2) 常见统计图的绘制
1.描述性分析概述
识记:离散型随机变量及其分布、未分组数据与分组数据的描述性分析、描述性统计量的概念。
领会:数据描述性分析的基本思想与方法。
2. 数据的集中趋势分析
识记:平均数、中位数、分位数以及众数表示的含义。
领会:平均数、中位数、分位数以及众数表示的计算方法及其区别。
3. 数据的离散程度分析
识记:极差、四分位差、平均差、方差与标准差以及变异系数的含义。
领会:极差、四分位差、平均差、方差与标准差以及变异系数的计算方法及其区别。
4. 数据的偏度与峰度
识记:偏度与峰度的含义。
领会:偏度与峰度的计算方法及其注意事项。
5. 数据分布的图形描述
识记:箱线图、直方图、经验分布函数图以及正态QQ图的含义。
领会:箱线图、直方图、经验分布函数图以及正态QQ图的绘制原理及其区别。
6. 描述性分析的R软件实现
识记:R软件中描述性统计量计算以及常见统计图绘制的函数。
领会:如何利用R软件进行数据的描述性分析。
简单应用:利用R软件对具有实际应用背景单一变量的数据进行描述性分析。
综合应用:利用R软件对行业领域中某些实际问题的多变量数据进行数据描述性分析。
1. 统计量与抽样分布
(1) 总体和样本
(2) 常用统计量
(3) 四大分布
(4) 统计量的分布
2. 总体参数的估计
(1) 点估计的基本方法
(2) 区间估计的基本思想
(3) 单个正态总体参数的区间估计
(4) 两个正态总体参数的区间估计
3. 总体参数的假设检验
(1) 假设检验的基本原理
(2) 单个正态总体参数的假设检验
(3) 两个正态总体参数的假设检验
4. 方差分析
(1) 基本概念
(2) 单因素方差分析
(3) 双因素方差分析
5. 推断性分析的R软件实现
(1) 常用统计量的相关函数
(2) 四大分布的相关函数
(3) 参数估计与假设检验
(4) 方差分析
1.统计量与抽样分布
识记:总体和样本、常用统计量的含义、四大分布类型、图形与特点。
领会:常用统计量的计算方法及其抽样分布。
2. 总体参数的估计
识记:点估计的类型、区间估计的类型。
领会:矩估计与最大似然估计的基本思想与计算方法、区间估计的基本原理、常见的单个正态总体与两个正态总体参数的区间估计方法。
3. 总体参数的假设检验
识记:假设检验的基本概念、参数假设检验的类型。
领会: 假设检验的基本原理、两类错误、常见的单个正态总体与两个正态总体参数的假设检验方法。
4. 方差分析
识记:方差分析的基本概念与类型。
领会:单因素与双因素方差分析的基本原理与分析步骤。
5. 推断性分析的R软件实现
识记:R软件中进行常用统计量计算、四大分布图形绘制、参数估计与假设检验以及方差分析的函数。
领会:R软件中进行常用统计量计算、四大分布图形绘制、参数估计与假设检验以及方差分析的具体方法。
简单应用:利用R软件进行常见统计量的计算、参数估计与假设检验以及方差分析。
综合应用:利用R软件对行业领域中某些实际问题同时进行参数估计、假设检验或方差分析等综合分析。
1. 相关性分析
(1) 散点图
(2) 相关系数
2. 一元线性回归分析
(1) 一元线性回归模型
(2) 离差的分解
(3) 回归方程(直线)的拟合优度
(4) 显著性检验
(5) 预测
3. 多元线性回归分析
(1) 多元线性回归模型
(2) 参数估计
(3) 回归方程的拟合优度
(4) 显著性检验
(5) 变量选择与逐步回归
(6) 预测
(7) 回归诊断
4. 可化为线性回归的非线性回归分析方法
5. 相关分析与回归分析的R软件实现
(1) 散点图的绘制
(2) 相关分析
(3) 一元线性回归分析
(4) 多元线性回归分析
(5) 可化为线性回归的非线性回归
1.相关性分析
识记:相关系数的概念。
领会:相关系数的计算方法。
2. 一元线性回归分析
识记:一元线性回归模型的应用背景、基本概念与分析步骤。
领会:建立一元线性回归模型的原理、参数估计方法、离差分解方法、回归方程(直线)的拟合优度描述方法、显著性检验与预测方法。
3. 多元线性回归分析
识记:多元线性回归模型的应用背景、基本概念与分析步骤。
领会:建立多元线性回归模型的原理、参数估计方法、回归方程的拟合优度描述方法、显著性检验与预测方法。
4. 可化为线性回归的非线性回归分析方法
识记:常见的可化为线性回归的非线性回归分析类型。
领会:将非线性回归分析问题化为线性回归分析的具体方法。
5. 相关分析与回归分析的R软件实现
识记:R软件中计算相关系数、进行一元线性回归分析、多元线性回归分析的函数。
领会:利用R软件计算相关系数、进行一元线性回归分析、多元线性回归分析的具体方法。
综合应用:利用R软件对行业领域中某些实际问题进行一元、多元回归分析。
1. 时间序列数据概述
(1) 时间序列的含义
(2) 时间序列的数据采集
(3) 时间序列的因素分类
(4) 时间序列的分解模型
(5) 时间序列的模型分类
(6) 时间序列的意义
2. 时间序列数据的长期趋势分析
(1) 移动平均法
(2) 指数平滑法
(3) 回归模型法
3. 时间序列数据的季节性分析
(1) 同期简单平均法
(2) 趋势剔除法
4. 时间序列数据的循环分析
(1) 直接测定法
(2) 剩余测定法
5. 时间序列的预测
(1) 时间序列预测方法的特点
(2) 时间序列的预测误差
(3) 时间序列的预测方法
6. 时间序列分析的R软件实现
1.时间序列数据概述
识记:时间序列的含义、时间序列因素分类与时间序列模型分类。
领会:时间序列数据采集方法、时间序列的分解模型、时间序列的意义。
2. 时间序列数据的长期趋势分析
识记:时间序列数据长期趋势分析方法的常见种类。
领会:移动平均法、指数平滑法、回归模型法的原理与算法。
3. 时间序列数据的季节性分析
识记:时间序列数据季节性分析的常见方法。
领会:同期简单平均法、趋势剔除法的原理与算法。
4. 时间序列数据的循环分析
识记:时间序列数据循环分析的常见方法。
领会:直接测定法、剩余测定法的原理与算法。
5. 时间序列的预测
识记:时间序列预测方法的特点。
领会:时间序列的预测误差与预测方法。
6. 时间序列分析的R软件实现
识记:R软件中进行时间序列分析的函数。
领会:利用R软件进行时间序列分析的基本方法。
综合应用:利用R软件对行业领域中具有实际应用背景的问题进行时间序列分析。
1. 数据分析报告及其类型
(1) 数据分析报告的作用
(2) 数据分析报告的类型
(3) 数据分析报告的特点
(4) 撰写数据分析报告应注意的问题
2. 普通数据分析报告的写作
(1) 数据分析报告的基本结构
(2) 数据分析报告的审定与评价
3. 学术研究报告的写作
(1) 学术研究报告与普通数据分析报告的区别
(2) 学术研究报告的写作步骤
(3) 学术研究报告的基本写作技巧
4. 数据分析应用案例
(1) 关于国内GDP的统计分析
(2) 关于制冷机耗电量的统计分析
(3) 关于波士顿房价数据的回归分析
1.数据分析报告及其类型
识记:数据分析报告的作用、类型、特点。
领会:撰写数据分析报告应注意的具体问题。
2. 普通数据分析报告的写作
识记:数据分析报告的基本结构、数据分析报告的审定与评价。
领会:撰写一份优秀的数据分析报告应注意的具体问题。
3. 学术研究报告的写作
识记:学术研究报告与普通数据分析报告的区别、学术研究报告的写作步骤。
领会:学术研究报告的基本写作技巧。
4. 数据分析应用案例
领会:以关于国内GDP的统计分析、关于制冷机耗电量的统计分析、关于波士顿房价数据的回归分析为例,总结数据分析应用案例的撰写方法。
综合应用:利用R软件对行业领域中某些实际问题进行综合数据分析。
本大纲由中国财政经济出版社 出版发行
书号:9787509592892