以旅游App为例,分析大数据分析平台的选型攻略

随着大数据分析技术的成熟,通过大数据对用户进行精准画像,并推送与其相关的资讯成为互联网企业提升用户体验的主流做法。浪潮通过互联网定制化服务器sa5112m5+sa5212m5的组合方案,让hadoop大数据集群更高效。
大数据分析,实现海底捞针
目前互联网的信息繁杂,导致用户对于信息的选择更苛刻。只有在合适的时间,把合适的内容推送给合适的人,才能让信息产生价值。以旅游app为例,旅行社、酒店繁多,良莠不齐,为了帮助中国旅游者做出更好的旅行选择,在线旅游网站希望凭借便捷、人性且先进的搜索技术,对互联网上的机票、酒店、度假和签证等信息进行整合,为用户提供及时的旅游产品价格查询和信息比较服务。
hadoop是大数据分析常用的平台
要实现实时精准搜索,需要建立比如hadoop这样的大数据分析平台,在大规模集群上提供mpi、bsp、mapreduce、spark等多种计算模型,实现大规模基础统计、分类、聚类、矩阵分解、图算法等一系列算法,并利用online learning技术,改进机器学习算法的规模以及性能,对网站进行内容基因分析,对用户进行长期兴趣点、短期兴趣点等的画像分析,帮助用户更快获取有兴趣的信息。
均衡类服务器是新建hadoop平台的首选
为了保证数据可用性和容错性,hadoop在集群服务器节点间分派数据并进行同步复制。同时为了保证快速的输出处理,存储数据的服务器也需要一定的计算能力。正是由于hadoop集群中的每一台节点都存储并处理数据的特点,这些节点都需要足够的计算和存储能力来满足应用需求。
在一个平衡的hadoop集群中,节点通常需要如下配置:
在一个磁盘阵列中要有12到24个1~8tb硬盘
2个频率为2~2.5ghz的四核、六核或八核cpu
64~512gb的内存
有保障的千兆或万兆以太网(存储密度越大,需要的网络吞吐量越高)
浪潮sa5112m5+sa5212m5组合方案建立高效hadoop平台
hadoop集群有四种基本任务角色:名称节点,工作追踪节点,任务执行节点,和数据节点。按照工作性质来划分,hadoop集群中有两类节点,master(主要负责任务调度)和slave节点(主要负责具体执行)。不同节点,采用sa5112m5+sa5212m5服务器组合的方式,适应不同的工作负载以及存储容量的需求。
hadoop不同节点有着不同的诉求
以名称节点为例,名称节点存储了所有分布式文件系统的元数据,其中包括文件、目录结构以及内存中的分块分配。每个分布式文件系统分块在名称节点的内存中大小约为250字节,另外加上文件和目录所需的250字节,共需要0.5k的内存。同时为了保证数据可靠,集群内至少需要有三个副本,因此64m实际数据需要1.5k的内存空间。一个热门的app由于拥有海量的用户、商家、地图等数据,其hadoop集群有pb级的文件,因此为名称节点配置128g内存才可以满足扩展需要。
浪潮sa5112m5是专为互联网行业定制的1u机架式服务器,相比其他传统1u双路服务器,在前置4个3.5寸sata硬盘的同时,独家设计支持2个ssd硬盘。这两个ssd硬盘可以作为数据缓存,提高作为缓存服务器的效率和访问速度。因此浪潮推荐选择sa5112m5作为hadoop的master节点方案,并针对hadoop工作负载进行优化的平衡架构。基于全新一代英特尔 至强 可扩展处理器,单cpu最高拥有28个内核及56线程,24条ddr4内存,拥有更快响应速度。
浪潮sa5112m5服务器
集群中的slave节点具体执行数据存储和分析,因此不仅需要较高的计算能力,还需要高效的存储。浪潮推荐采用sa5212m5,这是一款2u计算存储均衡型服务器,搭载最新一代英特尔至强可扩展处理器,支持intel skylake平台3/4/5/6/8全系处理器,支持全新的微处理架构,avx512指令集可提供上一代2倍的flops/core,多达28个内核及56线程,计算性能可达到上一代的1.3倍。
浪潮sa5212m5服务器
在存储方面,sa5212m5通过空间分层技术,可在2u空间内支持高达200t的存储容量,轻松满足大容量存储的要求;同时,sa5212m5可实现全闪存场景配置,帮助用户进行高速数据分析,提供强大的计算性能。
当大数据分析已经成为一个成熟技术,如何用更高效的计算平台来加速应用的效率成为it运营者重点关注的方向。浪潮拥有业界最丰富的服务器产品线,涵盖通用、整机柜和ai计算等方向,组建性能和tco最优的it系统,加速企业业务的发展。