学习笔记
【业务背景】本题为模拟题目 某汽车论坛网站要做业务的大数据分析。主要基于用户基本数据与用户的行为数据为主的业务数据 1 用户基本属性: 注册用户累计2000万,每个用户有大数据画像属性字段约200个 2 用户行为数据:每天约有200万用户浏览网站的各汽车频道与论坛。每次访问产生的一个行为数据属性包括: 网页地址、访问时间、栏目、车型、详细配置(颜色 发动机 内饰...)等结构化属性、以及评价(论坛的非结构化文本) ,每个用户平均日均产生50条记录 大数据分析要求:基于近期 3-6个月的业务数据,完成相关的分析 在业务分析所需的全部过程,涉及问题如下: 第一步 基础数据的处理 1 对分析的 3个月的业务数据量( 分析 记录的规模和存储大小)进行估算 4分 2 用户基本属性数据, a 采用何种存储机制(关系型 非关系型?)更合理 为什么 ? 3分 b 如果使用关系数据库,针对相关数据量,使用什么机制使得sql查询更高效和快速 ? 5分 c 如果使用python的pandas进行相关数据库操作,具体怎么做 要考虑什么可能的问题? 3分 3 用户行为数据体量巨大,以什么格式存储,什么方式进行计算 会更合理/有效 为什么 ? 3分 说明:这里综合考虑 大数据的基础数据量评估 结构化sql的应用场景和优化 分布式计算的应用场景和特点 第二步 网站用户基本分析 业务人员首先需要对现有用户情况进行认知,他们希望将用户划分为多个子类, 这个在数据挖掘中,通常可以通过用户属性数据进行相关计算 。 1 如果业务人员能提供相关的分类定义与部分用户的所属分类数据,可以用哪些算法实现用户细分? 提供两种4分 2 如果业务不能提供上面的数据,用哪些算法来做用户细分 ? 至少提供一种 4分 3 因为属性维度很多(200个),为了业务能够有效发现关键属性和减少数据处理压力,在挖掘前要做什么操作? 在统计中 一般用哪些算法来做 3分 4 以上工作 在python中 能用哪个工具包来完成? 3分 说明: 这里是统一考量 统计与数据挖掘技术 在不同场景下怎么用 如何使用数据挖掘中的 有监督分类和无监督分类的算法 以及统计中如何有效降维 还有 用python怎么实现 第三步 网站用户行为分析 希望通过用户在网站的浏览行为数据,发现 。 1 某车型与哪些车型是实际竞争车型。这个通过用户的行为数据是可以发现的,具体如何做? 使用什么算法5分 2 对某个车型,用户实际都最关注其哪些方面 ? 通过分析哪些行为 采用什么统计方法可以得到 4分 3 在python的pandas中 如何对用户的这种连续性序列行为进行分析 说明:这里如何使用相关性分析 来发现序列类数据的内部价值 以及python的实际操作 第四步 分析用户对车辆产品的态度 用户对某个车辆的评论信息有几十万篇,都是短文本的非结构化数据 1 如何通过自然语言处理技术 提取用户对该车型的态度(正负面)信息 7分 2 如果想自动发现评论中涉及的细化主题 使用哪些自然语言的主题模型合适? 5分 3 python中,能支持相关分析的工具包主流有哪些? 举出一两个 3分 说明: 这里是综合评估 对自然语言处理涉及的相关过程的掌握 以及常用的主题模型的了解 第五步 基于用户对车型的关注度,预测车型的销售趋势 对于某车型 ,其车厂希望通过网站上用户对车关注的行为数据,来发现其未来销售趋势 现在网站有如下数据:过去一年(细化到每个月) 关注该车型的用户量、浏览该车型的访问行为数据的各种统计指标, 车厂提供了: 该车型相应每月的销量数据 希望分析预测: 未来三个月,该车型后续的销量态势(上升还是下降 以及相应的比例)? 1 基于经典统计分析方法,如何实现? 6分 2 基于数据挖掘的机器学习类方法,如何实现? 5分 3 相关的方法和处理功能 在python中 有哪些常用的工具包和函数可以用? 3分 说明: 这里是综合评估 如何通过统计的LR 决策树 等其他分析算法 结合python 进行相关的预测建模
2020-03-15
学员中心
登录学员中心 我要报名 -
联系我们
中国信息协会市场研究业分会 中经数(北京)数据应用技术研究院
北京市东城区东四十条21号
监督电话
010-64642001
@ Copyright BDA WebSite. Collect From 大数据分析师官网 京ICP备2021005223号-1