根据软件公司易安信(emc corporation)的报告显示:预计到 2020 年,全球数据使用量将达到约 40zb(1zb=10亿tb)。数据作为永不枯竭的“金矿”,其对传统行业的改造升级仍在持续,未来20年内,全球将有超过50亿人“联网”,数据搜集、分析及监控需求还会进一步增强。
“大数据”概念诞生已久,自工业革命开始,公司便一直在使用数据分析利润和制定业务战略。遗憾的是,许多公司正在打着“品牌重塑”的幌子进行炒作,这也使得真正拥有熟练技术和相关能力的人才变得“奇货可居”,分析和存储数据的需求并未得到合理解决。
“大数据是信息化发展的新阶段”
国家领导人在 2017 年 12 月 8 号中央政治局第二次集体学习(学习主题“审时度势精心谋划超前布局力争主动,实施国家大数据战略加快建设数字中国”)时强调,要构建以数据为关键要素的数字经济,加快建设数字中国,并明确提出“大数据是信息化发展的新阶段”。
的确,大数据已不再仅仅是一种替代或选择,而是必需品。数字内容于当下互联网环境而言正处于巅峰期,其中包含大量关键和更新的信息,这使得每个企业的速度与响应都至关重要。大数据需要出色的技术,以便在可控时间内有效地处理大量数据。
在大数据分类中,包括结构化数据、非结构化数据、半结构化数据。其中结构化数据将数据格式化以便于访问并可用于分析,且以固定格式进行存储;非结构化数据则不使用传统的数据库模型,通常由文本,图像,文件等数据组成,当前我们所说的“数据捕捉”80%都是非结构化的数据;半结构化数据包含结构化数据和非结构化数据,其数据不是在存储库中组织的,而是具有使其可访问的相关信息。
从大数据中智能提取合理数据的能力仍然是许多行业面临的挑战,除了数据数量与种类的增加,数据流还可能与周期性峰值不匹配,突发的、非规律性的数据也难以管理。除此之外,存储、分析、数据管理、共享、搜索、传输可视化甚至信息隐私都是大数据构成的关键环节。如果在分析大数据时能获得更高的精准度,降本增效问题便将不再是疑难。
虽然我国在电子商务、共享经济以及移动支付等数字经济新业态中蓬勃发展,但大数据核心优势依旧欠缺,如何构建自主可控的大数据产业链和生态系统,将其发展为新一代信息基础设施,不仅是决策层思考的问题,底层构架更需要千万企业主动参与,探寻未知的力量。
大数据仍将持续且深远地影响企业业务开展
物联网概念的出现和人工智能的发展简化了大数据解决方案的实施,利用大数据分析,企业可以有效改善决策并提高效率;利用客户数据、行为等优化产品与服务。另外,数据分析的主要目的之一是确定大量数据中的特定规律。这些趋势可能成为通过引入新产品和服务获得竞争优势的关键。
今日头条并非市场上第一个尝试新闻推荐的应用,但其利用大数据和智能算法,已经实现了对facebook、微信等主流应用用户使用时长的赶超。当今日头条与微博账户绑定在一起时,微博的用户自标签、社交关系、社交行为、参与的群组、机型、使用时间等数据会在今日头条账户中建立一个“兴趣图谱”,用户的兴趣分布会和微博记录进行匹配。
除此之外,今日头条的新闻内容则是通过对整个互联网进行信息抓取再投送给用户,这虽然大大增强了用户粘性,但版权纠纷则时常出现。这也是大数据收集还未能解决的难点之一,但包括抖音、火山小视频等“头条系”的成功,无疑是对大数据发展的极大肯定。
而对于边界越来越模糊的营销行业来说,传统营销模式也渐失良方。创略科技则通过对以往数据的挖掘,建立了可以为用户智能分析的高级模型,以激活客户的原始业务数据,帮助企业建立起标准化的用户管理运营机制,实现高效的用户价值挖掘,并将ai真正引入营销行业中,在营销的数字化、智能化方面走出了自己的道路。
大数据也正在改造以智能为导向的制造业。海尔u+大数据平台由大数据基础平台、大数据分析平台、大数据应用平台三大平台构成,积累了上千亿海量用户与网器交互数据,能够精准的为用户和设备画像,更懂用户,更懂设备。u+大数据平台正在重新定义智能制造。
可预见的未来,机器传感器收集的高质量数据还可帮助制造商预测设备的故障率、简化库存管理并优化工厂环境,与物联网的叠加发展,则会让制造商能够与机器“交谈”,通过大数据来减少计划外设备的停机时间。
另外,人工智能的关键推动因素是系统处理,从环境中不断收集的大数据的知识和推理的能力正在诸多方面改变世界的运行方式:netflix使用大媒体收视率数据来推荐给用户可能想要观看的下一个节目;携程正基于大数据帮助用户进行个性化推荐及智能导购;而微博利用大量社交数据为你推荐潜在或可能认识的朋友;自动驾驶汽车已经开始大量收集形式数据,汽车正变得更聪明……
大数据与hadoop
随着企业行为的不断拓展,大量数据依然在不断形成。hadoop是一个解决“大数据”的框架,2010年前后hadoop逐渐成为互联网行业大数据计算的标准配置,该数据可以是结构化的,非结构化的,也可以是半结构化的。大量生成的复杂数据无法使用传统的数据处理软件和应用程序进行处理,因此,hadoop便应运而生,它可以解决这些与数据相关的大数据并发症。
hadoop是一个开源软件框架,开源意味着免费,任何人都可以根据要求更改其源代码。利用这一框架,我们可以在一组计算机上轻松处理和存储大量数据,而无需繁琐的工具和编程模型。如今,hadoop已经成为众多大数据工程的首选解决方案。对于企业来说,hadoop可以存储和处理大量的交易历史和实时客户数据,以确定市场中某一特定的基准,成为推动业务决策的分析平台,所以,hadoop仍将是大数据发展的关键解决方案之一。
大数据分析旨在揭示万物背后隐藏的相关性、模式和规律,以当前各行业的数据应用来看,虽然大数据前路依然充满未知,但数据蛮荒期已经渡过。
大好时机就在当下。
(文/文乾)