商业大数据或Hadoop平台比对

大数据一直是都是一个热门的话题,虽然没有一个标准的定义来解释何为 “大数据”,但在处理大数据上,hadoop已经成为事实上的标准。
hadoop的发行版除了社区的apache hadoop外,cloudera,hortonworks,mapr,emc,ibm,intel,华为等等都提供了自己的商业版本。商业版主要是提供了专业的技术支持,这对一些大型企业尤其重要。每个发行版都有自己的一些特点。对于企业而言,不管过去是否曾使用过hadoop,正确选择hadoop商业发行版都很重要。当企业准备投入巨大的财力在hadoop平台的硬件和解决方案上时,选择某个商业版的hadoop系统就变得特别重要了。根据业务需要选择正确的hadoop商业发行版可以带来更多的数据解决方案并且可以获得业界专业人士的认可。
cloudera
2008 年成立的 cloudera 是最早将 hadoop 商用的公司,为合作伙伴提供 hadoop 的商用解决方案,主要是包括支持,咨询服务,培训。2009年hadoop的创始人 doug cutting也任职于 cloudera 公司。cloudera产品主要为cdh,cloudera manager,cloudera support。cdh是cloudera的hadoop发行版,完全开源,比apache hadoop在兼容性,安全性,稳定性上有增强。cloudera manager是集群的软件分发及管理监控平台,可以在几个小时内部署好一个hadoop集群,并对集群的节点及服务进行实时监控。cloudera support即是对hadoop的技术支持。cloudera的标价为每年每个节点4000美元。
hortonworks
2011年成立的hortonworks是雅虎与硅谷风投公司benchmark capital合资组建的公司。公司成立之初吸纳了大约25名至30名专门研究hadoop的雅虎工程师,上述工程师均在2005年开始协助雅虎开发hadoop,这些工程师贡献了hadoop 80%的代码。。雅虎工程副总裁、雅虎hadoop开发团队负责人eric baldeschwieler出任hortonworks的首席执行官。hortonworks 的主打产品是hortonworks data platform (hdp),也同样是100%开源的产品,hdp除了常见的项目外还包含了ambari,一款开源的安装和管理系统。hcatalog,一个元数据管理系统。定价以集群为基础,每10个节点每年为12500美元。
mapr
mapr公司2009年成立,在hadoop领域显得有点特立独行,它提供了一款独特的发行版 。mapr认为,hadoop的这些缺陷来自于其架构设计本身,小修小补不能解决问题。他们选择了一条艰难得多的路: 用新架构重写hdfs,同时在api级别,和目前的hadoop 发行版保持兼容。mapr的hadoop商业发行版紧盯市场需求,能更快反应市场需要。一些行业巨头如思科、埃森哲、波音、谷歌、亚马逊都是mapr的hadoop的用户。与cloudera和hortonworks不同的是, mapr hadoop不依赖于linux文件系统,也不依赖于hdfs,而是在maprfs文件系统上把元数据保存在计算节点,快速进行数据的存储和处理。mapr有免费和商业两个版本,免费版本在功能上有所缩减。
mapr hadoop不如hortonworks 和cloudera,只能暂列第三,但相对其它版本的hadoop来说,它易用性最强,运行最快。因此,如果用户想选择带有足够创意和学习资料的hadoop,那么mapr hadoop将是不二之选。
商业版本的hadoop改进
hadoop商业发行版的提供者们通过优化核心代码、增强易用性、提供技术支持和持续版本升级为hadoop平台实现了许多新功能。市场上受认可的hadoop商业发行版的提供者主要有cloudera,mapr和hortonworks。 他们发行的hadoop商业版本都能与apache社区开源版本兼容,但它们之间有哪些区别呢?
框架核心:cloudera,mapr和hortonworks这三家公司都把hadoop核心框架打包到了他们的商业版本中;在这基础上,他们都提供了技术支持服务和定制化开发服务。
统集成:mapr 的商业版hadoop可靠地支持一系列功能,包括:实时流数据处理,与已有系统集成的内嵌的连接器,数据安全保护,企业级工程品质。
系统管控:cloudera和mapr 商业发行版中都包含了为系统管理员提供了配置、监控和优化的管控平台。
ibm
ibm推出的infosphere biginsights,该软件包括apache hadoop发行版、面向mapreduce编程的pig编程语言、针对ibm的db2数据库的连接件以及ibm bigsheets,后者是一种基于浏览器的、使用电子表格隐喻(spreadsheet-metaphor)的界面,用于探究和分析hadoop里面的数据。ibm在平台管理,安全认证,作业调度算法,与db2及netezza的集成上做了增强。从ibm中国开发中心信息管理总经理朱辉下面这句话就可以看出ibm对于biginsights的定位:biginsights并没有替代olap(online analytical processing)或oltp(online transaction processing)应用程序,但它可以整合其中,用于“过滤大量原始数据并合并结果,将结果以结构化数据的形式保存在dbms或数据仓库中”。
如何选择合适的hadoop发行版本
下面会简短地介绍下主要的发行版本提供商。在不同的发行版本之间一般只有一些细微的差别,而提供商则将这些差别视为秘诀和自己产品的与众不同之处。下面的列表解释了这些差别:
cloudera:最成型的发行版本,拥有最多的部署案例。提供强大的部署、管理和监控工具。cloudera开发并贡献了可实时处理大数据的impala项目。
hortonworks:不拥有任何私有(非开源)修改地使用了100%开源apache hadoop的唯一提供商。hortonworks是第一家使用了apache hcatalog的元数据服务特性的提供商。并且,它们的stinger开创性地极大地优化了hive项目。hortonworks为入门提供了一个非常好的,易于使用的沙盒。hortonworks开发了很多增强特性并提交至核心主干,这使得apache hadoop能够在包括windows server和windows azure在内的microsft windows平台上本地运行。
mapr:与竞争者相比,它使用了一些不同的概念,特别是为了获取更好的性能和易用性而支持本地unix文件系统而不是hdfs(使用非开源的组件)。可以使用本地unix命令来代替hadoop命令。除此之外,mapr还凭借诸如快照、镜像或有状态的故障恢复之类的高可用性特性来与其他竞争者相区别。该公司也领导着apache drill项目,本项目是google的dremel的开源项目的重新实现,目的是在hadoop数据上执行类似sql的查询以提供实时处理。
文章参考:
http://infoq/cn/articles/bigdataplatform/
http://blog.csdn/burpee/article/details/51461845
http://blog.csdn/akityou/article/details/62423003