1X笔记-大数据概述
目录
1+X笔记 大数据概述
大数据特征
体量巨大
种类繁多
处理速度快
价值密度低
大数据的数据结构
行业/企业数据
互联网数据
非结构化数据
大数据应用领域
领域广泛
形式多样
大数据挑战
数据规模 数据隐私问题
数据多样性和异构性 数据的访问与共享
数据实时性要求 人机协作问题
数据价值密度低 数据的合理性
大数据的意义
商业变革,管理变革,思维变革
大数据的发展趋势
我国大数据产业规模稳步增长
政策热度不断上升
融合提速,不均衡现象突出(行业,业务类型,地域分布)
创新与升级
数据储存
单硬盘存储
磁盘阵列
分布式存储
HADOOP概述
1.Hadoop是一个在计算机硬件的集群上储存数据,运行应用程序的开源软件框架
2.解决大数据运算的框架方案
3.大规模的存储/计算
4.对于大型job处理速度非常快
5.多种多样的处理引擎
Hadoop的特点
高可靠性
高可扩展性
高效性
高容错性
低成本
Hadoop生态概览
HDFS
适合海量数据储存
适合大数据量批处理
一次写入,多次读取
保证数据一致性
通过多副本提高可靠性
MapReduce
Yarn 在这里插入图片描述
MapReduce的计算逻辑
适合海量数据批处理
适合半结构和无结构化数据
性能可能随机器数量线性扩展
Web访问日志分析
可应用于机器学习
Hive
基于Hadoop的一个数据仓库工具
操作接口采用类SQL语法,学习成本低
避免了去写MapReduce,开发效率高
适用于海量结构化数据离线分析
Web访问日志分析
可运用于构建离线数据仓库
HBase
HBase相关概念
HBase的数据存储模型
Spark
Zookeeper
Ambari
## 阿里云大数据平台
MaxCompute
DataWorks
AnaiyticDB
DataV
QuickBI
PAI