大数据导论一
大数据导论(一)
1 大数据的概念
1.1 什么是大数据
大数据是指以 多元形式 ,自许多来源搜集而来的庞大数据组,往往具有 实时性 。在企业对企业销售的情况下,这些数据可能得自社交网络、电子商务网站、顾客来访纪录,还有许多其他来源。这些数据,并非公司顾客关系管理数据库的常态数据组。
1.2 大数据的技术支撑
云计算 使得计算和存储的成本下降,有了更多的数据沉淀,从而使数据价值得以进一步发掘。
分布式系统基础架构Hadoop 使其运算速度越来越快,伴随着Spark、Storm等技术也应运而生。
机器学习 使得机器具有理解数据的能力,大数据带来的最大价值就是“智慧”,同时人工智能进一步提升了处理和理解数据的能力。
1.3 大数据的意义
有数据可说 :在大数据时代,“万物皆数”,“量化一切”,“一切都将被数据化”。人类生活在一个海量、动态、多样的数据世界中,数据无处不在、无时不有、无人不用,数据就像阳光、空气、水分一样常见,好比放大镜、望远镜、显微镜那般重要。
说数据可靠 :大数据中的“数据”真实可靠,它实质上是表征事物现象的一种符号语言和逻辑关系,其可靠性的数理哲学基础是世界同构原理。世界具有物质统一性,统一的世界中的一切事物都存在着时空一致性的同构关系。这意味着任何事物的属性和规律,只要通过适当编码,均可以通过统一的数字信号表达出来。
2 大数据的来源
3 大数据的特征及意义
3.1 大数据的 3s
**Size 数据的大小
Speed 数据的处理速度
Structur 数据的结构化**
大数据是数据分析的前沿技术。从各种各样类型的数据中,快速高效获得有价值信息的能力,就是大数据技术。在IT业界有的学者使用3S来描述大数据,还有的学者使用3I来描述大数据。
3.2 大数据的 3I
3.3 大数据的4V
4 大数据的表现形态
大数据在当今社会非常时髦,大数据的信息量是海量的,这个海量并不是某个时间端点的量级总结,而是持续更新,持续增量。由于大数据产生的过程中诸多的不确定性,使得大数据的表现形态多种多样。
其表现形态包括 多源性、实时性和不确定性 。
多源性 :大数据来源的复杂性。网络技术的迅猛发展使得数据产生的途径多样化。大数据结构的复杂性。非结构化数据的格式多样化,而这些非结构化数据中可能蕴藏着非常有价值的信息。
实时性 :大数据的实时性,体现在数据更新的实时性。如何及时、有效、全面的捕获到互联网、物联网、云计算上产生的大量的不同来源的数据是会直接影响数据价值体现的关键因素。
不确定性 :体现的是数据的不确定性。原始数据的不准确以及数据采集处理粒度、应用需求与数据集成和展示等因素使得数据在不同尺度、不同维度上都有不同程度的不确定性。
5 大数据的7大应用场景
环境、教育行业、医疗行业、农业、智慧城市、零售行业、金融行业。