造数——最好用的数据采集工具http://zaoshu.io/
在当今这个大数据年代,任何决策都脱离不了数据。
数据科学家的数据分析步骤包括以下几个方面,
1、目标确定2、数据获取3、数据处理4、数据分析5、洞察结论6、报告撰写
1、目标确定
这一步在工作中通常是由你的客户/上级/其他部门同事/合作方提出来的,但第一次的数据报告中,需要你自己来提出并确定目标。
选择目标时需注意几点:
确定自己的方向研究什么问题该问题研究现状
2、数据获取
获取的方法多,除了公司已有的数据外,网络上存在海量的数据,这些数据是重要的数据源。
获取网络上的数据总的来看分为代码和工具。代码就是自己去写一个爬虫,成本较高,需要花大量时间去学习爬虫的相关知识,适合代码大神去做。对于不会代码的人来说,使用工具就是一个明智的选择,工具简单、好用,而且速度快。
造数就是一个优秀的数据采集工具,采集规则非常简单,使用鼠标点击数据,不需要下载额外的软件,所有的采集工作都是在云端进行。
造数,就是这么简单、优雅
造数,新一代智能云爬虫
3、数据处理
数据处理包括数据清洗和数据整理。
无论是通过代码还是工具获取的数据,都存在异常值、空白值、无效值、重复值等等,需要清除无效信息。在我们获取了精确的数据后,下一步就是描述分析。
通常我们使用表格展示数据,还可以利用图表来可视化。excel和bdp都是不错的选择,看看bdp的图。
4、数据分析
描述分析分为两大部分:数据描述和指标统计。
数据描述:用来对数据进行基本情况的刻画,包括:数据总数、时间跨度、时间粒度、空间范围、空间粒度、数据来源等。如果是建模,那么还要看数据的极值、分布、离散度等内容。这次我们是零基础做数据报告,那么就不用考虑后一类数据了。
指标统计:用来作报告,分析实际情况的数据指标,可粗略分为四大类:变化、分布、对比、预测;
5、洞察结论
这一步是数据报告的核心,也是最能看出数据分析师水平的部分。一个年轻的分析师和一个年迈的分析师拿到同样的图表,完全有可能解读出不同的内容。
举个例子:
年轻的分析师:2013年1月销售额同比上升60%,迎来开门红。2月销售额有所下降,3月大幅回升,4月持续增长。
年迈的分析师:2013年1月、2月销售额去除春节因素后,1月实际同比上升20%,2月实际同比上升14%,3月、4月销售额持续增长。
看到两者的区别了吗?2013年春节在2月,2012年则在1月,因此需要各去除一周的销售额,再进行比较。如果不考虑这一因素,那么后续得出的所有结论都是错的。挖掘数字变化背后的真正影响因素,才是洞察的目标。
总结一下,所谓洞察,就是要越过数据,去推测和理解真实情况。单纯描述数据,谁都会做,根据数据得出有价值的结论,报告才有意义。
6、报告撰写
数据分析的最后一步,用来向客户/上级/其他部门同事/合作方展示。每个人的风格都不一样,写出来的报告也各有特色。一般来说,报告撰写需要注意以下几点:
有鲜明观点有数据支持有解决办法
好了,到这里一份数据分析报告就出炉了。在现实中,数据分析师具体做法可能有偏差,但是从数据收集到数据分析这个思路是通用的。
再次推荐两个好用的工具:
造数:最好用的数据采集
bdp:和造数无缝衔接的可视化分析工具