伴随着大数据能力持续渗透到客户的it环境,致使这些客户的数据中心涌入了更多的新技术、新工具甚至新平台,它们循序渐渐进、融会贯通的交织在一起,逐渐形成了今天我们常听到的——企业级大数据中心。
很多tob侧自称做大数据的企业,都希望将自身能力以“方案+产品+服务”的形式呈现给客户,他们有些负责定制化应用开发、有些专注于平台建设、还有些只卖硬件产品……这些都不重要,关键在于对客户而言,到底什么样的能力才能完全支撑起自己大数据中心的业务和应用?这就是今天所分享的内容核心——对企业数据架构的理解。
何为数据架构?简单地讲就是:从自顶向下和自底向上两个维度分别考虑大数据中心的能力支撑。
自顶向下:客户的公司目标和战略是什么?伴随着这种战略有哪些业务提升机会;这些业务提升机会解决了哪些关键业务问题?支撑这些业务问题的关键指标是什么、采用什么分析维度和数据模型?最后考虑企业有哪些数据。
自底向上:当前有哪些数据源可以用于构建数据模型并支撑分析?采用哪些分析维度并形成关键业务指标?这些关键指标回答了哪些具体的业务问题并带来业务提升机会,最终达成了公司的什么目标战略。
虽然上述表述啰里啰嗦,但我们的目标是明确的:为了支撑业务,一定要让大数据中心的数据 “活” 起来。
图中所示,我们拟定在客户it环境中包括三种主流技术平台:edw平台、hadoop平台以及数据探索平台,这些能力是根据客户的技术演进和业务规划,循序渐渐形成的而并非一蹴而就。
edw平台:数据仓库的概念从上个世纪90年代由(bill inmon)提出的,它的特征在于面向主题的、集成的、稳定性的等等。由于面向结构化数据分析,因此edw主要提供数据的整合能力。不仅如此,数据分析和决策还能改善并优化原业务流程,所以edw还能以数据分析驱动业务运营。
hadoop平台:太火爆就不做过多介绍了。依托于开源生态组件可以实现大数据同步与加载入库,也可以支撑大数据存储和分布式计算,并且将中间数据或结果数据同步给edw域或者数据探索域,借助于hadoop系统可以实现企业线上(互联网日志、用户行为、第三方等)数据处理,也可以引入实时计算等开源组件支持高时效业务场景。
数据探索平台:支持机器学习及数据挖掘:运用内建算法和模型库支持数据探索,完成高级分析的特定场景或提供人工智能引擎(语音/文字/图片/自然语言等)。
伴随则上述三种混搭技术支撑,大数据中心的数据存储、数据处理方法、数据流转流向、数据分析目标、数据开放和共享等内容的一系列运作机理不尽相同,这就是企业数据架构。
客户有太多的应用需要支撑,而每一种技术又有自身的长项和短板、优势和劣势,而且数据架构并非像一颗发射的子弹(有固定的源点和目标的终点),数据或许还在交织变化着、经过一点后又发散目标、多路贯穿。
所以,支撑企业级大数据中心的复杂化业务形态,就必须考虑数据架构问题。当规划好数据如何摆放后,需要什么样的数据、构建哪些模型、支撑哪些业务也就明朗了,人员和团队能力需求也就清晰了。
是的,就差这一步,一个扮演着大数据中心灵魂的关键步骤。