在调查研究中,常常会遇到很多的大数据分析处理工作,人们需要在这些数据中分析出事物的一些规律,从而找出事物间的客观联系,得出研究理论的实践依据。因此对于科研工作者来说,大数据分析能力是工作中必不可少的技能包之一。下面我们来看,需要那些基本的分析能力呢?
一、数据可视化
简单的说就是将数据用图或者表直观展示出来。可以使用excel中大量的公式函数,通过这些函数执行计算,分析信息并管理电子表格或网页中的数据信息列表与数据资料图表制作。在这个方面事实上,excel的功能非常强大而且全面,完全可以满足日常工作中图表制作和数据可视化的需求。因此掌握好excel技能,对大数据的可视化分析是一个很好的帮助。
我们还可以用echarts和d3.js 等基于html5 的两个纯javascript图表库,可通过网页编程,在网页上显示出直观、可交互并且可个性化定制的数据可视化图表。具有创新的拖拽重计算、数据视图、值域漫游等特性,还有混搭图表、拖拽重计算、制作数据视图、动态类型切换、图例开关、数据区域选择、值域漫游、多维度堆积等非常丰富的功能。它们的用户体验非常好,不过需要一点网页开发的基础才可以使用。
二、机器学习
对于理工科背景的人们来说,这块领域入门还不算太难,首先需要具备了统计学和概率学的基础知识。机器学习的基础包括聚类、时间序列、推荐系统、回归分析、文本挖掘、决策树、支持向量机、贝叶斯分类和神经网络。从这些名词我们可以看到,没有统计学和概率学的基础知识是无法学好机器学习的。在了解基础知识的同时,推荐两个关于机器学习的框架:谷歌的tensorflow和百度的百度大脑。
三、算法
对于大多数人程来说算法经常听人提起,并不会太陌生,比如什么是数据结构,它包括栈、队列、链表、散列表、二叉树、红黑树、b树等等。然后是常用算法包括:排序(插入排序、桶排序、堆排序、快速排序)、最大子数组、最长公共子序列、最短路径和矩阵的存储运算。学好算法有利于更进一步深入学习如何开发程序来分析和处理大数据。