2023年-四川省职业院校技能大赛中职组-大数据应用与服务赛项样题
2023年 四川省职业院校技能大赛(中职组) 大数据应用与服务赛项样题
目录
背景描述
大数据时代背景下,人们生活习惯发生了很多改变。在传统运营模式
中,缺乏数据积累,人们在做出一些决策行为过程中
,更多是凭借个人经
验和直觉,发展路径比较自我封闭。而大数据时代,
为人们提供一种全新
的思路,通过大量的数据分析得出的结果将更加现实
和准确。平台可以根
据用户的浏览,点击,评论等行为信息数据进行收集
和整理。通过大量用
户的行为可以对某一个产品进行比较准确客观的评分
和评价,或者进行相应的用户画像, 将产品推荐给喜欢该产品的
用户进行相应的消费。
因数据驱动的大数据时代已经到来,没有大数据,我们无法为用户提
供大部分服务,为完成互联网酒店的大数据分析工
作,你所在的小组将应
用大数据技术, 通过
Python
语言以数据采
集为基础, 将采集的数据进行相
应处理,并且进行数据分析与可视化、数据标注、通过大数据业
务分析方
法和方案架构实现相应应用功能。运行维护数据库系统保障存储
数据的安
全性。通过运用相关工具软件解决具体业务问题。你们作为该
小组的技术人员,请按照下面任务完成本次工作。
任务 A:数据采集与处理
子任务一:数据采集
网站解析, 利用
Chrome
查看网页源码,
分析企
业消费平台网站网页结
构。
1.打开企业消费平台网站,
在网页中右键点击检查,或者
F1
2
快捷键,
查看元素页面;
2.检查网站:浏览网站源码查看所需内容。
从企业消费平台网站中爬取需要数据,按照要求使用
Pytho
n
语言编写
爬虫代码,爬取指定数据项,并对结果数据集进行数
据探索、以及必要的数据处理操作。请将符合题目要求的代码答案复制粘贴至对应报告中。
具体步骤如下:
(1)创建爬虫项目
(2)构建爬虫请求
(3)按要求定义相关字段
(4)获取有效数据
(5)将爬取到的数据保存到指定位置
至此已从企业消费平台网站中爬取了所需数据,下一步我们要将爬取
结果进一步进行相关数据操作。具体要求如下:
爬取酒店列表数据,例如酒店名称、国家、省份、城市、商圈、星级、
房间数、图片数、评分、评论数并且存入到
hote
l.csv
文件中。
子任务二:数据处理
1.现已从相关网站及平台获取到原始数据集,为保障用户隐私和行业
敏感信息,
已进行数据脱敏。数据脱敏是指对某些敏感信息
通过脱敏规则
进行数据的变形,实现敏感隐私数据的可靠保护。
在涉及客户安全数据或
者一些商业性敏感数据的情况、不违反系统规则条
件下,对真实数据进行
改造并提供测试使用,如身份证号、手机号等个人
信息都需要进行数据脱敏。
2.相关数据文件中已经包含了数据采集阶段从企业消费平台网站上爬
取的数据集,其中包含了来自不同城市的多家住宿
场所的销售信息,你的
小组需要通过编写代码或脚本完成对相关数据文件
中住宿场所销售管理数据的清洗和整理。
3.请分析相关数据集,根据题目规定要求实现数据处理,具体要求如
下:
4.删除
hotel2.csv 中酒店名称为空的数据并且存入
hotel2_c1
.csv;
5.删除
hotel2.csv 中删除数
据源中缺失值大于
3
个字段的数据记录并
且存入
hotel2_c2.csv;
6.将
hotel2.csv
中评分为空的数据设置为
0
并且存入
hotel2_c3.
csv;
将
hotel2.csv
中
评
分
为
空
的
数
据
设
置
为
平
均
评
分
并
且
存
入
hotel2_c4.csv。
任务 B:数据分析与可视化
子任务一:数据分析
1.城市游客接纳能力是城市规划建设中的重要指标,其中城市的酒店
房间数量是城市游客接纳能力的关键要素。请编写程序或脚本根据酒店管理网站中的数据
hotel_all.csv
统计以下的相关信息, 具体要求如下:
2.分别统计北京、上海、广州、深圳的酒店总数;
3.统计北京、上海、广州、深圳所有酒店的平均评分排名;
4.统计上海酒店的平均房间数;
5.统计所有
5
星级酒店的平均评分。
子任务二:数据可视化
在企业消费平台上,各地区的酒店信息能够反映一个地区
商业活动的
密集程度。例如酒店总量多的城市大都具有强烈的吸纳外来人员的能力,
订单数量能够反映该地区的有较多的商业往来。
根据现有数据及给定参数完成酒店数据统计。
使用
Python
代码编写数据可视化的相关功能,
数据分析业务所用数据
为
hotel_all.csv
数据,具体要求如下:
用柱状图显示北京、上海、广州、深圳酒店总数;
用折线图显示北京、上海、广州、深圳
4
星级酒店平均评分走势;
用饼图显示北京各星级酒店数占比。
任务 C:数据标注
子任务一:分类标注
对酒店评论数据
hotel_comment.csv
进行标注,具体的标注规则如下:
1.对具有想想反馈的评论数据标注为正向;
2.对不具备情绪反应的数据标注为中性数据,如毫无意义的灌水评论等;
3.对批判、讽刺等具有负向反馈的评论信息标注为负向。
4.根据采集到的评论信息,给出三类标注好的数据,每个类型
100 条,存入
standard.csv。具体格式如下:
编号 | 酒店名称 | 评论信息 | 情感倾向 | 备注 |
1 | 全季酒店 | XXXXXX | 中性 | |
任务 D:业务分析和方案架构设计
子任务一:业务分析
完成 hotel_comment_all.csv 评论情感分析功能,
以月度为单位统计
每月某酒店的正向、负向评价数量,绘制折线图,并对酒店的发展趋势作出简要分析。
子任务二:报表分析
1.根据已标注数据
standard_c1.csv
文件中的结果, 通过
excel
生成
报表信息方便产品方在后续作品中进行优化,及时准确的把握市场行情,
具体要求如下:
2.某酒店的评论正向和负向的评论区趋势;
3.某酒店在互联网上的整体评价趋势;
4.某酒店正向评论前
5
个词及负向评论的前
5
个词。
任务 E:数据库维护
子任务一:创建相关表
1.根据采集数据字段在 MySQL 数据库中创建酒店表(hotel)。酒店表字段如下:
字段 | 类型 | 中文含义 | 备注 |
id | int | 酒店编号 | |
name | varchar | 酒店名称 | |
city | varchar | 城市 | |
star | int | 星级 | |
room_num | int | 房间数 | |
image_num | int | 图片数 | |
score | double | 评分 | |
comment_num | int | 评论数 |
2.根据采集数据字段在 MySQL 数据库中创建评论表(comment
)。评论
表字段如下:
字段 | 类型 | 中文含义 | 备注 |
id | int | 评论编号 | |
name | varchar | 酒店名称 | |
commentator | varchar | 评论人 |
score | double | 评分 | |
comment_time | datetime | 评论时间 | |
address | varchar | 评论位置 | |
content | varchar | 评论内容 |
子任务二:维护数据表
1.在
hotel
表中删除
id
为
25
的酒店数据;
2.在
comment
表中将
id
为
30
的评论数据地址
改为北京;
3.统计北京、上海、广州、深圳的酒店总数。