大数据技术之大数据概论
大数据技术之大数据概论
关键词由CSDN通过智能技术生成
目录
1 、大数据概念
大数据(BigData) :指 无法在一定时间范围内 用常规软件工具进行捕捉、管理和
处理的数据集合.是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化
能力的 海量 、 高增长率 和 多样化 的 信息资产 。
大数据主要解决, 海量数据 的 采集 、 存储 和 分析计算 问题。
按照顺序给出数据存储单位:bit . Byte KB MB GB TB PB EB ZB YB BB NB DB
1Byte = 8bit 1KB = 1024Byte 1MB = 1024KB 1GB = 1024MB
1G = 1024MB 1TB = 1024GB 1PB = 1024TB
2、大数据特点(5V)
1
、
Volume
(大量)
截至目前,人类生产的所有
印刷材料的数据量是
200PB
,而历史上全人类总共
说过的话的数据量大约是
5EB
。当前,典型个人计算机硬盘的容量为
TB
量级,而
一些大
企业的数据量已经接近
EB
量级。
2
、
Velocity
(高速)
这是大数据区分于传统数据挖掘的最显著特征。根据
IDC
的“数字宇宙”的报
告,
预计到
2025
年,全球数据使用量将达到
163ZB
。在如此海量的数据面前,处
理数据的效率就是企业的生命。
天猫双十一:
2017
年
3
分
01
秒,天猫交易额超过
100
亿
2020
年
96
秒,天猫交易额超过
100
亿
3
、
Variety
(多样)
这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的
以数据库
/
文本为主的结构化数据
,
非结构化数据
越来越多,包括
网络日志、音频、视频、图
片、地理位置信息
等,这些多类型的数据对数据的处理能力提出了更高要求。
4
、
Value
(低价值密度)
价值密度的高低与数据总量的大小成反比。
如何
快速对有价值数据“提纯”成为目前大数据背景下待解决的难题。
5、Veracity
(真实性)
可信性,真伪性 来源&信誉 有效性 可审计性
3、大数据应用场景
1
、抖音:推荐的都是你喜欢的视频
2
、电商站内广告推荐:给用户推荐可能喜欢的商品
3
、零售:分析用户消费习惯,为用户购买商品提供方便,从而提升商品销量。
经典案例,纸尿布
啤酒。
4、物流仓储:京东物流,上午下单下午送达、下午下单次日上午送达
5
、保险:海量数据挖掘及风险预测,助力保险 行业精准营销,提升精细化定价能力
6
、金融:多维度体现用户特征,帮助金融机构 推荐优质客户,防范欺诈风险
7
、房产:大数据全面助力房地产行业,打造精 准投策与营销,选出更合适的地,建造更合适的楼, 卖给更合适的人
8
、人工智能
- 5G +
物联网
虚拟与现实
4、大数据发展前景
1、党的十九大
提出“
推动互联网、大数据、人工智能和实体经济深度融合
”。
2、2020年初,
中央推出
34万亿
“新基建”投资计划
3
、下一个风口
2020年是
5G
的元年,
国家在大力铺设
5G
设备
,
2021
年就是
5G
手机应用的开
始,
也是大数据要爆发的
1
年
。
5G
带来的是每秒钟
10g
的数据,会给每家公司都
带来海量的数据。那么传统的Java
工具根本解决不了海量数据的存储。就更不用
说海量数据的计算了。如果你对5G
的感触不够深,可以回忆一下
3G
和
4G
的区别。
3G时只能打电话、发短信
,当时还觉得很好,觉得
3G
不错。但是
4G
来了后
,大
家很少打电话和发短信了,都改为
语音、视频、直播、网上购物
等生活方式,
带
火了淘宝、京东、美团、字节跳动等企业
。没有跟上节奏的百度,有点摇摇欲坠。
4
、人才紧缺、竞争压力小
有句话叫:“
选择大于努力
”选择一个好的方向,少奋斗十年。是否记得
国家在2017
年才开设大数据课程,当时是
北京大学、人民大学
等
25
所高校开设
第一批大数据课程。今年才2022
年。也就是上年才毕业,那么像
Java
、前端大学
已经开设多少年了,包括培训班都加在一起,10
多年,可想而知目前市场上,
Java和前端的人才有多少。
5、大数据部门间业务流程分析
6、大数据部门内组织结构
本篇博客是学习尚硅谷的大数据相关课程总结出的一些笔记,希望能加深大家对大数据这门学科的了解!