数字化人才职业技能培养与评价服务平台
数据分析师官网
首页
|
认证介绍
|
考纲说明
|
行业方向
|
校企共建
|
就业渠道
学习笔记
查询至少有2名男生的班号。【查看效果】
2020-03-15
【业务背景】本题为模拟题目 某汽车论坛网站要做业务的大数据分析。主要基于用户基本数据与用户的行为数据为主的业务数据 1 用户基本属性: 注册用户累计2000万,每个用户有大数据画像属性字段约200个 2 用户行为数据:每天约有200万用户浏览网站的各汽车频道与论坛。每次访问产生的一个行为数据属性包括: 网页地址、访问时间、栏目、车型、详细配置(颜色 发动机 内饰...)等结构化属性、以及评价(论坛的非结构化文本) ,每个用户平均日均产生50条记录 大数据分析要求:基于近期 3-6个月的业务数据,完成相关的分析 在业务分析所需的全部过程,涉及问题如下: 第一步 基础数据的处理 1 对分析的 3个月的业务数据量( 分析 记录的规模和存储大小)进行估算 4分 2 用户基本属性数据, a 采用何种存储机制(关系型 非关系型?)更合理 为什么 ? 3分 b 如果使用关系数据库,针对相关数据量,使用什么机制使得sql查询更高效和快速 ? 5分 c 如果使用python的pandas进行相关数据库操作,具体怎么做 要考虑什么可能的问题? 3分 3 用户行为数据体量巨大,以什么格式存储,什么方式进行计算 会更合理/有效 为什么 ? 3分 说明:这里综合考虑 大数据的基础数据量评估 结构化sql的应用场景和优化 分布式计算的应用场景和特点 第二步 网站用户基本分析 业务人员首先需要对现有用户情况进行认知,他们希望将用户划分为多个子类, 这个在数据挖掘中,通常可以通过用户属性数据进行相关计算 。 1 如果业务人员能提供相关的分类定义与部分用户的所属分类数据,可以用哪些算法实现用户细分? 提供两种4分 2 如果业务不能提供上面的数据,用哪些算法来做用户细分 ? 至少提供一种 4分 3 因为属性维度很多(200个),为了业务能够有效发现关键属性和减少数据处理压力,在挖掘前要做什么操作? 在统计中 一般用哪些算法来做 3分 4 以上工作 在python中 能用哪个工具包来完成? 3分 说明: 这里是统一考量 统计与数据挖掘技术 在不同场景下怎么用 如何使用数据挖掘中的 有监督分类和无监督分类的算法 以及统计中如何有效降维 还有 用python怎么实现 第三步 网站用户行为分析 希望通过用户在网站的浏览行为数据,发现 。 1 某车型与哪些车型是实际竞争车型。这个通过用户的行为数据是可以发现的,具体如何做? 使用什么算法5分 2 对某个车型,用户实际都最关注其哪些方面 ? 通过分析哪些行为 采用什么统计方法可以得到 4分 3 在python的pandas中 如何对用户的这种连续性序列行为进行分析 说明:这里如何使用相关性分析 来发现序列类数据的内部价值 以及python的实际操作 第四步 分析用户对车辆产品的态度 用户对某个车辆的评论信息有几十万篇,都是短文本的非结构化数据 1 如何通过自然语言处理技术 提取用户对该车型的态度(正负面)信息 7分 2 如果想自动发现评论中涉及的细化主题 使用哪些自然语言的主题模型合适? 5分 3 python中,能支持相关分析的工具包主流有哪些? 举出一两个 3分 说明: 这里是综合评估 对自然语言处理涉及的相关过程的掌握 以及常用的主题模型的了解 第五步 基于用户对车型的关注度,预测车型的销售趋势 对于某车型 ,其车厂希望通过网站上用户对车关注的行为数据,来发现其未来销售趋势 现在网站有如下数据:过去一年(细化到每个月) 关注该车型的用户量、浏览该车型的访问行为数据的各种统计指标, 车厂提供了: 该车型相应每月的销量数据 希望分析预测: 未来三个月,该车型后续的销量态势(上升还是下降 以及相应的比例)? 1 基于经典统计分析方法,如何实现? 6分 2 基于数据挖掘的机器学习类方法,如何实现? 5分 3 相关的方法和处理功能 在python中 有哪些常用的工具包和函数可以用? 3分 说明: 这里是综合评估 如何通过统计的LR 决策树 等其他分析算法 结合python 进行相关的预测建模
2020-03-15
python3+中,判断5是滞在list[1,2,3,4,5,6]内的代码是
2020-03-18
季节指数反映了某月份或季度的数值占全年平均数值的大小。如果现象的发展没有季节的变动,则各期的季节指数应为多少,说明理由。
2020-03-15
请说明下列numpy.linalg函数dot()、det()、svd()、eig()的作用。
2020-03-15
简述比较分类器性能的方法。
2020-03-14
简述PERT 预测法的主要过程。
2020-03-12
简述分类法的应用原则。
2020-03-12
python3+数据类型不可变的数据类型有
2020-03-08
python3+中数字100属于
2020-03-08
python3+导入sys模块的argv和path成员,使用的语句是
2020-03-08
python3+中数字1+2.1j属于
2020-03-05
list = ["中", "华", "人", "民", "共", "和", "国" ] del list[2]的结果是
2020-03-05
为变量符值12.23后,该变量的类型是
2020-03-05
Task Tracker出现故障会有什么影响?该故障是如何处理的?
2020-02-29
首页
上一页
[ 448 / 582 ]
下一页
尾页
学员中心
登录学员中心
我要报名
-
联系我们
首页
|
考试入口
|
考务系统
|
认证学习中心
|
学分银行官网
|
市场研究协会官网
中国信息协会市场研究业分会
中经数(北京)数据应用技术研究院
北京市东城区东四十条21号
监督电话
010-64642001
@ Copyright BDA WebSite. Collect From 大数据分析师官网
京ICP备2021005223号-1