`

大数据

阅读更多
如何从海量数据中快速获取自己需要的数据?如何能够完成越来越复杂的数据计算?在数据仓库和数据库中的数据以TB\GB级增长的时候,如何能够保证数据查询和计算的高效率和响应度?

当前数据计算所面临的问题,主要集中在三个方面:第一是数据存取和数据交换时的I/O瓶颈问题,第二是复杂计算模型的完备性问题,第三是数据计算本身的性能问题。

I/O瓶颈问题,主要表现在和硬盘的交互以及通过网络输入输出,一般来说使用高转速的硬盘以及增加网络带宽可以获得一定程度的缓解,大部分情况下不会成为瓶颈。数据量大到一定程度时可以使用数据库集群,不过数据库扩容成本很高,该方案不是一个很优的选择。

数据计算本身的性能问题则是一个最严重的问题。

能有效解决性能问题的唯一办法就是并行计算。目前提供并行计算的产品有两大类,一类是以TD、GreenPlum为代表的MPP数据库产品,其优点是计算快,并行算法透明,缺点是数据库扩容成本太高,每增加一个并行节点则要增加不菲的费用,一般用户承受不起。

另一类以Hadoop为代表的分布式数据处理的软件框架,该方案把数据存储在分布式文件系统HDFS里。HDFS分布式文件系统很好地解决了IO问题,并具有很强的容错能力,是个很优秀的数据存储方案。但是Hadoop提供的并行框架MapReduce则不敢苟同了,该框架是为非结构化数据的搜索统计而设计的, 由于本身不提供算法,又没有现成的类库,导致程序员编写算法难度很高,工作量很大。同时由于MapReduce框架把任务拆分得过细,使得很简单的一个计算任务,需要编写数个Map 和Reduce方法来实现,开发和运行效率都很低。

理想的大数据计算模式,应该具备以下特征:

1、计算层独立于数据库和应用程序之外,既不受数据库难扩容的影响,也不受应用程序的限制。
2、计算层能够访问分布式文件系统(如HDFS等),便于在海量数据时避开IO瓶颈。
3、具有足够完备的计算体系,在编写算法时,有丰富的类库和方法支持,减轻开发工作量。
4、计算层提供并行框架,并行节点扩充容易,成本低廉。且数据块的拆分比较灵活,允许程序员根据实际情况随意指定。
5、计算层对外提供标准的数据访问接口, 如JDBC等

分享到:
评论
1 楼 布鲁斯薛 2014-11-25  

相关推荐

    大数据可视化PPT 大数据可视化PPT

    大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT大数据可视化PPT...

    清华大学精品大数据课程PPT课件 大数据导论 全套PPT 共7个章节.rar

    清华大学精品大数据课程PPT课件(35页) 第1章 大数据概念与应用.pptx 清华大学精品大数据课程PPT课件(40页) 第2章 大数据的架构.pptx 清华大学精品大数据课程PPT课件(48页) 第3章 大数据采集及预处理.pptx 清华...

    大数据平台的基础能力和性能测试

    简要地介绍了大数据技术发展的背景以及大数据技术标准的需求,综述了国际大数据平台标准化和评测的现状,详细介绍了数据中心联盟在大数据平台技术标准化和测评方面的实践,最后总结了当前工作的问题,并展望了下一步...

    大数据导论:认识大数据.pdf

    课程: 大数据导论 课程简介 本课程首先介绍大数据的概念和商业应用,再引导理解大数据存储、处理和管理的技术 架构,浅尝 Hadoop2 生态圈、以及 Spark 框架结构,领略这些流行的框架是如何支持 大数据管理的。...

    【大数据可视化大屏源码】车联网大数据可视化平台后台管理模板.zip

    大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据...

    大数据技术参考架构

    大数据参考架构围绕代表大数据价值链的信息价值链(水平轴)和IT价值链(垂直轴)两个维度组织展开。信息价值链表示大数据的应用理论作为一种数据科学方法,从数据到知识的处理过程中所实现的信息价值,其核心价值...

    第五届工业大数据比赛-风机-测试集_初赛

    第五届工业大数据比赛-风机-测试集_初赛 第五届工业大数据比赛-风机-测试集_初赛 第五届工业大数据比赛-风机-测试集_初赛 第五届工业大数据比赛-风机-测试集_初赛 第五届工业大数据比赛-风机-测试集_初赛 第五届工业...

    大数据技术概论_大数据技术之大数据概论.pdf

    大数据技术概论_大数据技术之大数据概论.pdf大数据技术概论_大数据技术之大数据概论.pdf大数据技术概论_大数据技术之大数据概论.pdf大数据技术概论_大数据技术之大数据概论.pdf大数据技术概论_大数据技术之大数据...

    什么是大数据?什么是大数据?

    什么是大数据?什么是大数据?

    澳大利亚公共服务大数据战略研究

    摘要:大数据已经渗透到各行各业,成为重要的生产要素,产生巨大的冲击,适当的政策引导具有重要的战略意义,已经引起各国政府和组织机构的重视,将大数据政策提升到国家战略的高度,澳大利亚公共服务大数据战略在...

    大数据概论:大数据与大数据时代ppt.pptx

    大数据与大数据时代 大数据概论:大数据与大数据时代ppt全文共78页,当前为第1页。 大数据概论:大数据与大数据时代ppt全文共78页,当前为第2页。 大数据概论:大数据与大数据时代ppt全文共78页,当前为第3页。 ...

    [详细完整版]财务大数据.pptx

    一、大数据概述 大数据定义 大数据特征 大数据技术 大数据趋势 财务大数据全文共45页,当前为第3页。 大数据时代 工业时代 信息时代 手工时代 时代变迁 财务大数据全文共45页,当前为第4页。 财务大数据全文共45页...

    阿里巴巴 大数据之路

    阿里巴巴,作为距离大数据最近的公司之一,近几年对大数据却鲜有高谈阔论。实际上,阿里巴巴一开始就自然生长在数据的黑洞中,并且被越来越多、越来越密集的数据风暴裹挟。从需求→设计→迭代→升华为理论,在无数次...

    59套大数据可视化大屏PSD源码,包含各行业模板

    59套大数据可视化大屏PSD源码,包含各行业模板。59套大数据可视化大屏PSD源码,包含各行业模板。59套大数据可视化大屏PSD源码,包含各行业模板。59套大数据可视化大屏PSD源码,包含各行业模板。59套大数据可视化大屏...

    大数据导论-4.1.2大数据方法的驱动力——大数据行动.pptx

    《大数据导论》 大数据行动 大数据导论-4全文共16页,当前为第1页。 大数据行动——谷歌 大数据导论-4全文共16页,当前为第2页。 大数据行动——谷歌 大数据导论-4全文共16页,当前为第3页。 大数据行动——谷歌 ...

    电信领域大数据安全防护实现指南

    本文件适用于指导电信大数据提供方、大数据系统建设方、大数据系统运营方、大数据合作方等组织机构在开展大数据系统建设、运营及大数据合作等过程中对数据进行安全保护,也可为第三方机构开展电信大数据安全防护能力...

    《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf

    《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf...

    【大数据可视化大屏源码】广西矿产资源大数据监管平台.zip

    大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据可视化大屏前端源码大数据...

    【Axure数据可视化大屏原型合集】之智慧行业智慧城市大数据可视化HTML版(大数据可视化展板通用模板+智慧工地模板)

    【Axure数据可视化大屏原型合集】之智慧行业智慧城市大数据可视化HTML版(大数据可视化展板通用模板+智慧工地模板) 【Axure数据可视化大屏原型合集】之智慧行业智慧城市大数据可视化HTML版(大数据可视化展板通用...

    大数据治理 (桑尼尔·索雷斯著) 中文pdf扫描版

    《大数据治理》一书较好地满足了理解大数据治理框架的需要,系统地阐述了大数据治理的各个版块,分析了五大类大数据的治理,考察了大数据治理在典型行业的实践,并深入浅出地介绍了当今主流的大数据技术与平台。...

Global site tag (gtag.js) - Google Analytics