数字化人才职业技能培养与评价服务平台
数据分析师官网
首页
|
认证介绍
|
考纲说明
|
行业方向
|
校企共建
|
就业渠道
学习笔记
利用python工具,在本地计算机上,读入数据文件(cfsj.csv),数据记录中有部分记录是重复的,请删除重复记录并生成一个删除了重复行的数据集。【下载数据】
2019-10-19
以Class降序查询Student表的所有记录。【查看效果】
2019-10-19
查询没有学全所有课的同学的学号、姓名【查看效果】
2019-10-19
请列举5个常用的numpy.random函数,并说明其作用。
2019-10-19
python3+中,将list=['北京','天津','上海']转换为元组的函数是
2019-10-19
试述Stom框架如何改变开发人员开发实时应用的方式。
2019-10-20
一个完整的推荐系统一般由3个部分组成,请说明这3个部分及其功能。
2019-10-20
与传统的软件使用方式相比,云计算这种模式具有哪些明显的优势?
2019-10-20
试述调查数据分析中常用的相对指标。
2019-10-19
简述指数平滑预测法的优点有哪些?
2019-10-19
Python3+中,三角函数有
2020-03-20
已知某DataFrame对象由下面的语句创建 df = pandas.DataFrame({´a´:[1,2,3,4], ´b´:[2,3,4,5], ´c´:[3,4,5,6], ´d´:[3,3,3,3]}) 那么,df.pivot(index=´a´, columns=´b´, values=´c´)的内容是什么?
2020-03-18
一个 Topology由哪些组件组成?
2020-03-17
简述基于密度的聚类算法(BDSCAN)。
2020-03-16
【业务背景】本题为模拟题目 某汽车论坛网站要做业务的大数据分析。主要基于用户基本数据与用户的行为数据为主的业务数据 1 用户基本属性: 注册用户累计2000万,每个用户有大数据画像属性字段约200个 2 用户行为数据:每天约有200万用户浏览网站的各汽车频道与论坛。每次访问产生的一个行为数据属性包括: 网页地址、访问时间、栏目、车型、详细配置(颜色 发动机 内饰...)等结构化属性、以及评价(论坛的非结构化文本) ,每个用户平均日均产生50条记录 大数据分析要求:基于近期 3-6个月的业务数据,完成相关的分析 在业务分析所需的全部过程,涉及问题如下: 第一步 基础数据的处理 1 对分析的 3个月的业务数据量( 分析 记录的规模和存储大小)进行估算 4分 2 用户基本属性数据, a 采用何种存储机制(关系型 非关系型?)更合理 为什么 ? 3分 b 如果使用关系数据库,针对相关数据量,使用什么机制使得sql查询更高效和快速 ? 5分 c 如果使用python的pandas进行相关数据库操作,具体怎么做 要考虑什么可能的问题? 3分 3 用户行为数据体量巨大,以什么格式存储,什么方式进行计算 会更合理/有效 为什么 ? 3分 说明:这里综合考虑 大数据的基础数据量评估 结构化sql的应用场景和优化 分布式计算的应用场景和特点 第二步 网站用户基本分析 业务人员首先需要对现有用户情况进行认知,他们希望将用户划分为多个子类, 这个在数据挖掘中,通常可以通过用户属性数据进行相关计算 。 1 如果业务人员能提供相关的分类定义与部分用户的所属分类数据,可以用哪些算法实现用户细分? 提供两种4分 2 如果业务不能提供上面的数据,用哪些算法来做用户细分 ? 至少提供一种 4分 3 因为属性维度很多(200个),为了业务能够有效发现关键属性和减少数据处理压力,在挖掘前要做什么操作? 在统计中 一般用哪些算法来做 3分 4 以上工作 在python中 能用哪个工具包来完成? 3分 说明: 这里是统一考量 统计与数据挖掘技术 在不同场景下怎么用 如何使用数据挖掘中的 有监督分类和无监督分类的算法 以及统计中如何有效降维 还有 用python怎么实现 第三步 网站用户行为分析 希望通过用户在网站的浏览行为数据,发现 。 1 某车型与哪些车型是实际竞争车型。这个通过用户的行为数据是可以发现的,具体如何做? 使用什么算法5分 2 对某个车型,用户实际都最关注其哪些方面 ? 通过分析哪些行为 采用什么统计方法可以得到 4分 3 在python的pandas中 如何对用户的这种连续性序列行为进行分析 说明:这里如何使用相关性分析 来发现序列类数据的内部价值 以及python的实际操作 第四步 分析用户对车辆产品的态度 用户对某个车辆的评论信息有几十万篇,都是短文本的非结构化数据 1 如何通过自然语言处理技术 提取用户对该车型的态度(正负面)信息 7分 2 如果想自动发现评论中涉及的细化主题 使用哪些自然语言的主题模型合适? 5分 3 python中,能支持相关分析的工具包主流有哪些? 举出一两个 3分 说明: 这里是综合评估 对自然语言处理涉及的相关过程的掌握 以及常用的主题模型的了解 第五步 基于用户对车型的关注度,预测车型的销售趋势 对于某车型 ,其车厂希望通过网站上用户对车关注的行为数据,来发现其未来销售趋势 现在网站有如下数据:过去一年(细化到每个月) 关注该车型的用户量、浏览该车型的访问行为数据的各种统计指标, 车厂提供了: 该车型相应每月的销量数据 希望分析预测: 未来三个月,该车型后续的销量态势(上升还是下降 以及相应的比例)? 1 基于经典统计分析方法,如何实现? 6分 2 基于数据挖掘的机器学习类方法,如何实现? 5分 3 相关的方法和处理功能 在python中 有哪些常用的工具包和函数可以用? 3分 说明: 这里是综合评估 如何通过统计的LR 决策树 等其他分析算法 结合python 进行相关的预测建模
2020-03-15
首页
上一页
[ 447 / 582 ]
下一页
尾页
学员中心
登录学员中心
我要报名
-
联系我们
首页
|
考试入口
|
考务系统
|
认证学习中心
|
学分银行官网
|
市场研究协会官网
中国信息协会市场研究业分会
中经数(北京)数据应用技术研究院
北京市东城区东四十条21号
监督电话
010-64642001
@ Copyright BDA WebSite. Collect From 大数据分析师官网
京ICP备2021005223号-1