大数据技术4
大数据技术【4】
- 大数据的特征不包含()。
A. 规模性
B. 多样性
C. 高速性
D. 价值密度高
- 决策树中不包含一下哪种结点()。
A. 根结点
B. 内部结点
C. 外部结点
D. 叶结点
- 许多公司利用大数据技术来收集海量数据、训练模型、优化模型,并发布预测模型来提高业务水平或者避免风险,这是大数据在()的技术。
A. 知识搜索
B. 数据整合
C. 预测分析
D. 数据校验
- 以下关于大数据关键问题的说法,不正确的是()。
A. 非结构化与半结构化数据的处理是一项重要的课题
B. 传统的统计理论与技术能很好地实现大数据知识发现
C. 大数据复杂性,不确定性特征描述的方法及大数据的系统建模是实现大数据知识发现的前提与关键
D. 大数据处理问题复杂多样,难以用一种单一的计算模式涵盖互联网企业表现强势
- 中国大数据产业特征不包括()。
A. 大数据整体解决方案已成熟
B. 区域产业集聚现雏形
C. 大数据基础研究受到重视
D. 互联网企业表现强势
- 噪声数据处理的主要方法不包括() 。
A. 分箱
B. 聚类
C. 关联分析
D. 回归
- ()是目标类数据的一般特性的汇总,通常以用户指定类的数据通过数据库查询收集,其输出可以用多种形式呈现,例如饼图,条形图,折线图等等。
A. 数据属性
B. 数据整合
C. 数据采集
D. 数据特征
- 以下哪个不属于分类算法()。
A. 朴素贝叶斯
B. 决策树
C. K均值算法
D. KNN算法
- MapReduce任务过程分为两个处理阶段:map阶段和()阶段。。
A. map
B. reduce
C. Map/Reduce
D. master
- 将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为()。所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。
A. 关联规则
B. 聚类
C. 机器学习
D. 云计算
- 分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务,属于()问题。
A. 关联规则挖掘
B. 分类与回归
C. 聚类分析
D. 时序预测
- 以下哪个选项是目前利用大数据分析技术无法进行有效支持的()。
A. 新型病毒的分析判断
B. 精确预测股票价格
C. 个人消费习惯分析及预测
D. 天气情况预测
- 最早提出大数据时代概念的公司是()。
A. 微软公司
B. 谷歌公司
C. 脸谱公司
D. 麦肯锡公司
- 以下哪个不属于大数据可视化的应用()。
A. 医学影像
B. 天气云图
C. 热点地图
D. 响应式表单
- 以下哪个属于非关系型数据库()。
A. Mysql
B. Access
C. SQL
D. MonogoDB
- 下面()程序负责 HDFS 数据存储。
A. NameNode
B. Jobtracker
C. Datanode
D. SecondaryNameNode
- 下列关于MapReduce说法不正确的是()。。
A. MapReduce是一种计算框架
B. MapReduce来源于google的学术论文
C. MapReduce程序只能用Java语言编写
D. MapReduce隐藏了并行计算的细节,方便使用
- 数据挖掘的预测建模任务主要包括哪几大类问题()
A. 分类
B. 回归
C. 模式发现
D. 模式匹配
- 下列关于大数据的说法中,错误的是()。
A. 大数据具有体量大、结构单一、时效性强的特征
B. 处理大数据需采用新型计算架构和智能算法等新技术
C. 大数据的应用注重相关分析而不是因果分析
D. 大数据的应用注重因果分析而不是相关分析
- 下列关于脏数据的说法中,正确的是()。
A. 格式不规范
B. 编码不统一
C. 意义不明确
D. 与实际业务关系不大
- 随着现在硬件和软件解决方案的成熟,许多公司利用大数据技术来()
A. 收集海量数据
B. 训练模型
C. 优化模型
D. 预测模型
- 以下哪些学科和大数据技术有密切联系
A. 统计
B. 马列主义
C. 矿产挖掘
D. 人工智能
- 非关系型数据库有()
A. MySQL
B. 文档型(MonogoDB)数据库
C. Key-value型(Redis)数据库
D. 图型(Neo4j)数据库
- 以下属于聚类算法的是()
A. K均值
B. DBSCAN
C. Apriori
D. KNN
- 医疗领域可以怎样利用大数据()
A. 临床决策支持
B. 个性化医疗
C. 社保资金安全
D. 用户行为分析
- 大数据的特征有()
A. Volume(大量)
B. Variety(多样)
C. Value(低价值密度)
D. Visualization(可视化)
回归算法可用于预测分析。
基于大数据的营销模式比传统营销模式实时性更强。
各种传感器无时无刻不在为我们提供大量的数据。
KNN是基于规则的分类器。
数据仓库的最终目的是建立数据仓库逻辑模型。
躲避拥堵是高德地图导航的数据挖掘内容之一。
处理大数据需采用新型计算架构和智能算法等新技术。
K-means算法属于分类算法。
线性回归可用于预测分析。
聚类分析要求同类数据的内容相似度尽可能小。
数据重组是数据的重新生产和重新采集。
2015年8月31日,国务院印发了《促进大数据发展行动纲要》。
脏数据是指格式不规范、编码不统一、意义不明或与实际业务关系不大的数据。
Hadoop作者是Kent Beck。
Apriori算法是无监督学习。
数据清洗的方法有缺失值处理、噪声数据清除、一致性检查等。
大数据分析时,在分析方法上更注重相关分析而不是因果分析。
数据从产生到被删除销毁的过程中,具有多个不同的数据存在阶段。
大数据一般是指数量级为GB以上的数据。
Hadoop作者是Martin Fowler。
数据挖掘可用于在地图软件中建立道路拥堵概率与拥堵趋势变化模型。
大数据通常是指GB级以上的数据。
大数据的应用可以促进健康管理的个性化和多元化。
大数据具有体量大、结构单一、时效性强的特征。
决策树方法通常用于关联规则挖掘。
在产业发展领域,大数据加速了产业优化升级的步伐。
宁家骏委员指出,云计算、大数据、物联网等技术主导了21世纪。
聚类分析时不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别。
HDFS默认Block Size是256MB。
信息生命周期管理是据生命周期管理的来源,最早由英国企业提出。
MapReduce中每个reducer的输入都是随机的。
大数据起源于金融行业。
智慧城市的构建包括物联网、云计算、大数据等技术。
大数据的数据规模大,数据价值密度高。
数据可视化技术是指对各类型数据源的海量数据以及实时和接近实时的分布式数据进行显示。
孤立点在数据挖掘时总是被视为异常、无用数据而丢弃。
人们关心大数据,最终是关心大数据的应用,关心如何从业务和应用出发让大数据真正实现其所蕴含的价值,从而为人们生产生活带来有益的改变。
大数据还是一种思维方式。
计算机数据存储的容量单位,1KB<1MB<1GB。
K均值算法是分类算法。
C4.5是基于规则的分类器。
大数据的运用能够维护社会治安。
数据重组有利于实现新颖的数据模式创新。
利用数据融合、数学模型、仿真技术等,可以逼近事物的本质,可以揭示出原来没有想到或难以展现的关联,大大提升政府决策的科学性。()
大数据技术可应用于金融、互联网、公共管理等不同的领域。
噪声数据一般直接删除。
数据的关联度反映数据的精细化程度,越细化的数据,价值越高。。
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
谷歌流感趋势预测充分体现了数据重组和扩展对数据价值的重要意义。
在噪声数据中,波动数据比离群点数据偏离整体水平更大。
用户离散的交互痕迹能够为企业提升服务质量提供参考。
大数据预测能够分析和挖掘出人们不知道或没有注意到的模式,计算各种事件发生的概率。
内存通常是集群的最主要瓶颈。
朴素贝叶斯是一种分类算法。
决策树方法通常用于关联规则挖掘。。
Apriori算法是一种典型的关联规则挖掘算法。
大数据预测能够分析和挖掘出人们不知道或没有注意到的模式,确定判断事件必然会发生。
大数据的运用能够加强交通管理。
大数据具有6V特征。
回归分析分析又称为变异数分析,主要用于两个及两个以上样本均数差别的显著性检验。
不同的数据存在阶段,数据的价值是不同的。
大数据分析之前首先要进行抽样分析。
数据分析前要对数据进行预处理。
大数据还是一种思维方式和新的管理、治理路径。
在采集数据时要注意用户的隐私安全问题。
HDFS中的block默认只保存1份。
大数据分析中,在分析效果上追究精确性。
利用数据融合、数学模型、仿真技术等,可以逼近事物的本质,可以揭示出原来没有想到或难以展现的关联,大大提升政府决策的科学性。
传统营销模式比基于大数据的营销模式针对性更强。
分类与回归树是一种最小生成树。
对于企业来说,给用户进行各种促销或者实施运营策略的时机也比较重要,而且对不同兴趣偏好的用户最好集中处理。
从事大数据不要求举报一定的数学统计能力。
传统营销模式比基于大数据的营销模式转化率低。
传统营销模式比基于大数据的营销模式投入更小。