这些数据分析软件你知道吗?

最近几年你是否经常听到“大数据”“数据分析”“可视化”这类词,没错,我们现在正处在大数据的风口浪尖,毫无疑问,数据正在呈爆炸式的增长。ibm的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。随着数据体量的增大,大数据时代悄然来临。
在商业环境下,“从数据中得到价值”并不是一个新鲜的词。随着大数据时代的到来,数据,或者说大数据,所产生的商业价值已然有了巨大改变。在过去的几年之中,基于数据收集渠道的拓宽,数据处理技术的进步,人们对于如何更好的使用数据,发挥数据更大的商业价值也有了更多的探索和尝试。
所谓“大数据”大数据的概念广为人知,但大数据是什么,尚没有一个权威的定义。目前,流传较广的是大数据的4v定义。 2001年,麦塔集团(meta group,现为高德纳)分析员道格·莱尼(doug laney)指出数据增长的挑战和机遇有三个方向:
1量(volume),数据量大。从b(byte)、kb、mb、gb到pb、eb、zb等等,数据量的边界不断扩大。自人类有印刷术以来,过去上千年的印刷材料也只相当于200pb,而仅2011年一年,全球就新产生了约1.8zb的数据。数据还在源源不断的产生,继续呈指数型的增长。
2速(velocity),数据处理快。尤其是涉及到感知、传输、决策、控制开放式循环的大数据,对数据实时处理有着极高的要求。
3多变(variety),多样性。数据来源广泛,既包括了数值型数据,也包括了文字、图形、图像、音频、视频、网络日志、邮件等非结构化数据。有统计显示,全世界结构化数据年增长率大概是32%,而非结构化数据则是63%。2012年,非结构化数据占有比例已经达到互联网整个数据量的75%以上。
数据发展得这么快,那么我们用什么工具来分析这些数据,从而提取这些数据的价值呢?下面我将一一列举我所知道的数据分析工具。
一、r
r语言是主要用于统计分析、绘图的语言和操作环境。虽然r主要用于统计分析或者开发统计相关的软件,但也有用作矩阵计算。其分析速度可比美gnuoctave甚至商业软件matlab,它的主要特点有:
1. 免费... 开源(这是r流行于研究机构和大学的最主要原因)
2. 是专门为统计和数据分析开发的语言,各种功能和函数应有尽有。
3. 语言简单易学。这也是r流行于数据分析的主要原因。
4. 兼容性好。在windows系统或是linux系统都运行很流畅。
5. 各种包和函数的透明性极好,这使得对函数的调整和改良变得非常便利。
6. 能做漂亮又灵活的图,现在数据可视化越来越热,这也就成为主要优点了。
二、matlab
matlab是美国mathworks公司出品的商业数学软件,用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境,主要包括matlab和simulink两大部分。主要特点有:
1) 高效的数值计算及符号计算功能,能使用户从繁杂的数学运算分析中解脱出来;
2) 具有完备的图形处理功能,实现计算结果和编程的可视化;
3) 友好的用户界面及接近数学表达式的自然化语言,使学者易于学习和掌握;
4) 功能丰富的应用工具箱(如信号处理工具箱、通信工具箱等) ,为用户提供了大量方便实用的处理工具。
三、spss
spss是世界上最早的统计分析软件,它最突出的特点就是操作界面极为友好,输出结果美观漂亮。它将几乎所有的功能都以统一、规范的界面展现出来,使用windows的窗口方式展示各种管理和分析数据方法的功能,对话框展示出各种功能选择项。用户只要掌握一定的windows操作技能,精通统计分析原理,就可以使用该软件为特定的科研工作服务。spss采用类似excel表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据。其统计过程包括了常用的、较为成熟的统计过程,完全可以满足非统计专业人士的工作需要。输出结果十分美观,存储时则是专用的spo格式,可以转存为html格式和文本格式。对于熟悉老版本编程运行方式的用户,spss还特别设计了语法生成窗口,用户只需在菜单中选好各个选项,然后按“粘贴”按钮就可以自动生成标准的spss程序。极大的方便了中、高级用户。
spss for windows是一个组合式软件包,它集数据录入、整理、分析功能于一身。用户可以根据实际需要和计算机的功能选择模块,以降低对系统硬盘容量的要求,有利于该软件的推广应用。spss的基本功能包括数据管理、统计分析、图表分析、输出管理等等。spss统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、logistic回归、probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。spss也有专门的绘图系统,可以根据数据绘制各种图形。
四、sas
sas(全称statistical analysis system,简称sas,是全球最大的软件公司之一,是由美国north carolina州立大学1966年开发的统计分析软件。其主要特点是功能强大,统计方法齐,全,新。sas提供了从基本统计数的计算到各种试验设计的方差分析,相关回归分析以及多变数分析的多种统计分析过程,几乎囊括了所有最新分析方法,其分析技术先进,可靠。分析方法的实现通过过程调用完成。许多过程同时提供了多种算法和选项。例如方差分析中的多重比较,提供了包括lsd,duncan,tukey测验在内的10余种方法;回归分析提供了9种自变量选择的方法。
五、python
python已经成为最受欢迎的程序设计语言之一。2011年1月,它被tiobe编程语言排行榜评为2010年度语言。由于python语言的简洁性、易读性以及可扩展性,在国外用python做科学计算的研究机构日益增多,与数据分析相关的 python 库有:
1、numpy
numpy 是 python 科学计算的基础包,它提供快速高效的多维数组对象 ndarray;直接对数组执行数学运算及对数组执行元素级计算的函数;线性代数运算、随机数生成;
2、pandas
pandas 主要提供快速便捷地处理结构化数据的大量数据结构和函数。
3、matplotlib
matplotlib 是最流行的用于绘制数据图表的 python 库。
4、ipython
ipython 是 python 科学计算标准工具集的组成部分,是一个增强的 python shell,目的是提高编写、测试、调试 python 代码的速度。主要用于交互式数据处理和利用matplotlib 对数据进行可视化处理。
5、scipy
scipy 是一组专门解决科学计算中各种标准问题域的包的集合。
以上是常用的并且功能强大的数据分析软件,还有好用的数据分析软件请各位朋友一起分享出来吧。