本文为天云大数据原创 摘要:本期微信继续分享天云大数据的最佳实践案例。 近几年,随着国内电信企业的不断发展,电信行业的竞争也趋于白热化。一方面,客户选择电信业务及电信企业的余地越来越大,电信企业之间对客户的争夺也越来越激烈。另一方面,电信客户的高速增长,形成了庞大、需求差异很大的客户群。在这种激烈的竞争情况下,如何提高经济效益,如何运用科学的经营分析方法,实现精细化的管理和营销,用高质量的服务来吸引和留住客户,扩大市场占有率,在竞争中占据有利位置,是国内各电信运营商关注的重点。 在这种背景下,各电信运营商纷纷建立起以“经营分析系统”为核心的企业决策支持体系,通过对公司日常经营数据的分析、挖掘,为公司决策者、各级管理者提供经营决策依据,以便实现精细化营销。基于此某电信运营商巨头为确保其在市场中的领先地位,更是及早布局,希望通过结合应用大数据技术可以走在同行之前。为此该运营商针对其现有的经营分析系统存在的短板,整合企业各域数据,优化系统架构,采用大数据技术构建企业级经营分析系统,提高资源利用率,并通过逐步解耦数据及应用,逐步开放能力平台,充分发挥数据价值,以便支撑公司全面发展运营。 对于移动互联网逐渐普及的今天,以往基于cdr为主的客户行为分析可能已缺失了大量的客户行为有效信息。例如,两个通话行为相似的人可能是完全不同类型的客户,如果将之同等对待,客户的接受度必然很差,也浪费了大量资源,并且无法取得良好的效果。由于无法知晓通话内容,两个通话行为模式类似(例如夜间长时间的长途电话),实际通话目的及生活方式(其中一个是晚上与朋友聊天,另一个是因加班需要的工作电话)完全不同的两个人往往在分析中被误归为一类,从而导致对客户的理解有较大偏差,营销效果不佳。然而用户的上网行为中蕴含着大量的客户特征和客户需求信息,这些信息至关重要,这却是传统的cdr话单分析所不能提供的,因此对用户上网的内容进行解析对电信运营商实现精细化运营提供重要的营销依据,是泛互联网化精准营销的基础。 根据当前该电信运营商南方某省基地的实际情况,天云大数据本着先进性、高可靠性、成熟性、高扩展性和易维护性的系统建设原则,为该电信运营商南方某省基地的经营分析系统设计了一套简便易行、高效实用的架构方案,该方案最终通过使用天云大数据自主研发的bdp企业大数据平台来实现。天云大数据bdp产品架构图 bdp产品是一套基于hadoop研发的分布式基础架构,它充分利用了分布式两大核心技术分布式文件系统与分布式计算框架,构建了一整套完整的分布式存储和分布式计算系统。它不但继承了hadoop分布式系统高可靠性、高扩展性、高效性、高容错性、低成本等特点,同时它还具备高安全性、易维护性、开放性、支持数据压缩和数据备份存储等优势。它可运行在x86架构下的普通pc服务器上,能够存储多样化类型的数据,大大降低了服务器和存储的成本,以及数据库license的成本,有效缓解了系统扩容带来的高成本压力。 与此同时,bdp还集成了统一的系统账户、管理员和用户管理保证了系统访问的安全,采用多副本备份和心跳检测机制确保数据的安全性,可防止数据丢失。它提供的管理工具可以简单有效的管理、监控系统的运行状态,管理员可以方便的增加、配置、移除分布式集群中的任意节点,大大简化和降低了集群日常运维的流程和成本。并且它采用master-slave模型可以线性扩展,使得集群的规模可以达到上万台,处理数据的量级可达pb级以上,可并行计算,支持毫秒级应用响应和压缩pb级的数据。也可提供多种外部接口、api,能与外部系统很好集成,比如企业的crm、oa、erp、网站等等。同时bdp平台还支持主流etl工具和bi工具,可提供二次开发。 与传统小型机加关系型数据库方案的高成本、低性能、不灵活、难扩展等特性相比,分布式架构不仅能处理数字、字符、日期等结构化数据,还能处理文本、音视频、图像等非结构化数据。分布式架构中对数据分片、分散存储,多节点、多磁盘并行读取的模式,有效的分担了i/o,可以极快提取大量的数据结果集,有效的提升了查询效率。而且分布式架构的扩展不仅操作简单,而且能够保证回报和投资成正比,可在pb数据量级的情况下依然保证快速的加载性能,数据清洗效率和查询、分析、挖掘的快速响应时间。对于分布式架构而言,自由的数据存放、多节点的并行处理、低成本的磁盘存储、灵活的现行扩展,从多个角度保证了行业用户对大数据处理分析方面各种需求。 关于分布式计算它是一种并行处理大数据集的软件框架。在处理大数据的时候,通过分布式计算将其任务分解并在运行的多个节点中处理。当集群中的服务器出现错误时,整个计算过程并不会终止。同时分布式系统可保障在整个集群中发生故障错误时的数据冗余。bdp可以让开发人员不必再关心底层分布式实现的细节,而是可以通过充分利用集群的威力高速运算和存储来开发分布式应用程序。某电信运营商南方某省基地经营分析系统架构图 本次试点采用的数据是根据该电信运营公司提供的南方某省某月的wap上网日志数据,通过对几tb,几百亿条日志数据采用gz格式进行压缩,共设计了两个测试场景。其中项目实施的第一场景是利用项目运行的硬件平台,设计六种etl测试场景,通过对每个测试场景的测试结果进行对比分析,充分展示hadoop平台在处理海量数据方面的巨大优势,提出合理云平台部署建议,为将来部署实施相关项目提供参考;项目实施的第二场景是在项目运行的硬件平台上部署天云大数据的处理软件,系统包含数据清洗、转换、汇总、挖掘等模块,对南方某省某月的测试数据进行三个流程的数据处理,并提供运行结果的界面展示,为将来部署etl云平台提供了借鉴。同时对于测试数据,进行了数据清洗、转换、汇总等模块的处理,同时针对上网的url,采用网页分类的数据模型进行网页分类,然后利用数据挖掘模型对网页分类结果和用户信息进行汇总处理,分析出用户喜好,为以后用户精准营销提供了参考数据。
作者:天云大数据转载请注明出处
天云大数据 天云大数据是专注于大数据分布式计算平台软件、ai算法的国家高新科技企业。孵化并成长于北京云基地的天云大数据是北京祥云工程代表企业,作为秘书长或理事成员参与了中国云产业联盟,中关村大数据产业联盟,国家统计局大数据战略合作企业,中关村-滨海大数据产业技术创新战略联盟,上海大数据产业技术创新战略联盟的筹建。被硅谷gigaom大数据先锋评论冠以改变中国云计算最有影响力的企业;帮助某全国性股份制商业银行获得了国际化组织idc的“2014年度中国金融行业最佳创新项目”大奖;2016年荣选由毕马威评选的中国领先金融科技公司50强企业。