大数据到底是什么
目录
大数据到底是什么?
全社会都对大数据的概念很痴迷,动辄 “大数据告诉你……”但是大数据到底是什么呢?说到定义,恐怕仁者见仁、智者见智。不过从处理技术上来看,大数据意味着大量的和复杂的数据,它是不能够使用传统的数据库管理工具进行管理的。 而且,要被划分为大数据范畴,那数据的大小应该在pb级以上,且呈现指数级增长。 什么 是 大数据 ?
? 大数据 :指 数据集 的 大小 超过了 现有 典型 的 数据库软件 和 工具 的 处理能力 的 数据 。
大数据 的 特点 ?
? 海量化 ( Volume): 数据量 从 TB 到 PB 级别
? 多样化 (Variety) : 数据类型 复杂, 超过 80% 的 数据 是 非结构化 的
? 快速化 ( Velocity) : 数据量 在 持续增加 (两位数的年增长率) 数据 的 处理速度 要求 高
? 高价值 ( Value ) :在 海量 多样 数据 的 快速分析 下能够 发挥出 来 更高 的 数据价值
大数据 能做什么 ?
? 海量数据 背景 下 :
? 快速查询 - 全量查询
? 数据存储 - 量大、文件大
? 快速计算 - 对比传统方案
? 实时计算 - 最新数据
? 数据挖掘 - 新价值 ( 海量数据 下的 隐藏价值)
? 为什么 非要用 大数据 用 传统 的不行吗 ?
1、 传统是 纵向扩展 服务器数量 不发生变化, 配置 越来越高(发生变化)
大数据 横向扩展 配置 不发生变化, 服务器数量 越来越多(发生变化)
2、 传统的方式 资源 ( cpu/ 内存 / 硬盘) 集中
大数据方式 资源 (cpu/ 内存 / 硬盘) 分布 ( 前提: 同等配置 的前提下 )
3、传统数据备份方式 单份备份
大数据数据备份方式 多份备份 (数据复制, 默认三个 副本)
4、传统的 计算模型 是 移动数据 到 程序端
大数据 计算模型 是 移动程序 到 数据端 io 和网络的使用率都非常低,且多节点存储,多节点计算(众人拾柴火焰高)
大数据 要学习的 技术 ?
大派送 ~~~
大数据 的 流程 ?
? 数据 生产 —> ? 数据 采集 —> ? 数据 储存 —> ? 数据 分析 —>
? 数据 预处理 —> ? 数据 计算 —> ? 结果 数据 储存 —> ? 结果 数据 展现