公司存在大量数据浪费?那是你的数据库用错了

未来几年,全球数据量将呈指数级增长。据idc统计,到2020年,全球数据总量将达到44zb,中国数据量将达到8060eb,占全球数据总量的18%。数据,已然对当下的商务、生活乃至方方面面都产生了深远的影响。可众所周知,各行各业数据生产的速度要远远大于数据消化的速度。数据分析处理的不及时,必然造成大量具有时效性数据的浪费,日积月累,这样的不匹配性会越来越严重。
如何消除这样的不匹配性?归根结底,我们需要一种能够对更大规模数据做到更实时更迅捷的分析工具。
顺势而生的gpu数据库
2015年,已经在甲骨文公司工作了6年的星爵意识到,传统的数据库系统需要革新了。传统cpu数据库的发展主要面临两大瓶颈,一是数据计算速度,二是数据访问速度。而负责算力的cpu,目前停留在数十核的规模,这已经接近它的物理极限了。数据库计算领域,是时候该添加新鲜血液了。
2013年,深度学习技术的崛起让人们看到了gpu的力量。在这之前,gpu的主要功能是图片渲染,通过模拟现实场景生成接近于真实景象的图片,主要被应用于游戏领域。而深度学习技术,使gpu“大规模并行计算”的能力得以展现,人们对它的认知终于不再是游戏机,gpu,也可以成为像cpu一样的服务器。而星爵,更是坚定的认为,gpu处理大数据已经成为一种趋势。各种深度学习的软件框架例如tensorflow,需要运行在计算设备上,与cpu相比,gpu更能让其高效的工作,在性价比以及计算力上都有较大的优势。
没有犹豫,星爵离开甲骨文,回国创立了zilliz,他要做人工智能时代的数据库系统。
星爵认为,在过去数十年间,人工智能因为cpu架构下计算能力的限制而裹足不前,olap数据库技术也因为同样的原因而发展缓慢。就像华岩资本合伙人黄志玮所认为的,我们需要一个基于众核处理器硬件加速的、面向人工智能的新一代olaip(on-line analytical and intellegent processing)数据库系统,而这正是zilliz在研发的产品。
zilliz使用众核处理器上的成千上万个处理核心进行超大规模并行数据处理,实现数据库操作的加速,同时提供数据库系统和人工智能计算框架之间的直接数据通道。zilliz将人工智能处理引擎融合进数据库执行引擎,提供集数据存储、分析、管理、和人工智能处理与一身的olaip数据库系统。
星爵向亿欧介绍,zilliz基于gpu的数据库系统可以比cpu数据库的性能提高100倍,可大范围的应用于金融、电信、互联网以及政府领域。
在商业模式上,zilliz为各行业的头部客户和互联网公司提供了不同的方案。对于头部客户,zilliz即可以为其提供私有部署,同时还有基于一体机的解决方案;对于互联网公司,尤其是那些将数据部署在云端的客户,zilliz可以为其提供saas的方案,使用各大云厂商提供的gpu,在云端为客户提供服务,从而使客户无需采购gpu硬件设备便可以使用。
新技术的新“麻烦”
大多数人有这样一个疑问——
即便gpu数据库的使用性能和性价比,与原有系统相比更有优势,但是要让用户将存储在cpu服务器上的数据快速迁移到gpu服务器中,可行性有多大?
这关乎到zilliz的未来,也是星爵自公司创立之初就在解决的问题。星爵表示,zilliz并不是要替代原有的cpu方案,而是要在大规模数据的实时性分析方面开创一个新的蓝海市场。
人工智能时代下,数据量将会呈指数型增长。在这样的情况下,各行各业的业务想要得到更好的发展,实时数据分析能力以及实时数据驱动运营能力将是其核心的竞争力,因此,zilliz产品的存在是有其合理性的。
zilliz投资人云启资本执行董事陈昱表示,在大数据时代,企业需要一个更大、更快、更强的数据库,人工智能技术的加入,是一种对传统数据库的革新,使数据库产生了更高的效率,这无疑是当下各公司最迫切的需求。
另外,星爵希望将数据库软件做成一个标准件。作为一个底层的数据库软件,需要对外提供标准化的查询语言接口,理想状态应当是用户在接入新数据库的时候,其业务层面不发生改变。因此zilliz通过产品化与标准化,为用户提供标准sql接口以及各种etl工具,从而降低用户在数据迁移过程中的成本,尽量做到“无感迁移”。对于用户来说,相当于更换了一个数据库的软件和引擎,但是其业务层并不会受到影响。
星爵还向亿欧透露,为了更加快速的在cpu处理器与gpu处理器之间进行数据交换,zilliz与ibm合作生产了数据库一体机,使用nvlink技术,能够大大提升不同类型处理器芯片之间的数据传输速度。
资本认可,行业进入爆发期
目前世界范围内做olap gpu数据库加速的公司仅有4家:
星爵介绍,在这一领域,国外从2006年就已经开始有所研究,然而,当时的市场认知度不足,用户对于gpu还停留在游戏处理器的认知上,且高端gpu的市场存量较少,并没有基于gpu部署数据库系统的实力。另一方面,整个生态系统还处于早期的发展状态,各种相关工具及配套软件比较缺乏。基于以上两点原因,国外公司在这一方面并没有太多优势。
到2016年,市场认知才有所好转。从业人员开始意识到gpu也可以做与企业相关的工程(例如深度学习),同时,gpu服务器已经成为常态,各种gpu的生态体系也逐渐完善,种种原因使得2016年成为gpu数据库的元年,至此,资本市场逐渐认可这一领域,gpu数据库进入爆发期。
然而爆发并不意味着竞争,靖亚资本创始人郑靖伟向亿欧介绍,数据库这样底层技术的门槛很高,国内少有人研究。产品的研发与验证都需要一定时间,而对于一般的大型中型公司来说,更换数据库系统需要进行很多的测试来评估流程,一旦被验证,很难再次更换数据库系统提供商。
而2018年,将是gpu数据库在各行各业应用更为广泛的一年。