前言
说实话,数据分析是人人都会的,只是没有把它提升到是一个分析的过程,在每个人的脑子里都有不同的思考的方式。所以今天讲“数据分析的魅力和坑”可能只是在各位原有的一些思维层面上,有一些不太注意的地方会变成坑,然后导致一些不太好的结果。今天主要把我遇到的坑和大家分享,以后在遇到同样的情况下,也可以避开那些坑的情况。我们先思考一个简单的逻辑题,让我们的思维更快速一点。
珠宝店被盗,警察问了4名嫌疑人,甲说“不是我做的”,乙说“是丁做的”,丙说“丁没有偷”,丁说“肯定是乙偷的,”4个人里一个人说一句话,谁偷的?
“甲偷的”。为什么是甲偷的?因为这里面有两个人说话是矛盾的,一个是“丁偷的,”一个是“丁没有偷”,两个里面肯定有一个是真的,因为只有一个人说真话,其他两个都是假话,所以甲说“不是我做的,”那就是他做的,就是这样。因为四个人里只有一个人说了真话,有两个人说了相反的一句话,那么其中有一个人肯定是真,有一个人肯定是假的。我不问这两个人谁说的真,谁说的假,另外两个人说的肯定是假,所以是甲做的。这就是逻辑上的关于矛盾的点,一定要关注。其实数据分析也是这样,当你看数的时候,首先看到的有矛盾的数。应该是甲大乙就大,但是现在甲大,乙小了,这两个之间出现了矛盾,就要去关注它。
下面,我们接着来说数据分析到底能做些什么。
第一、数据分析来源于生活,每个人在生活中都在解决数据分析的问题。
第二、数据在很多地方呈现的时候都会误导你,误导你的时候是基于什么?你自己如果有一定的准备你就会知道。
第三、职场发展的需要。
第一章:数据分析的作用——解决生活问题
大家先思考两个问题(如图一)。这两个问题相当经典,也是在数字思考中会出现的问题。只是说遇到的事不一样,但是思维方式是一样的。关于这两个问题,当时我们老师在学校里上课的时候给了我们五分钟的时间思考,当时最快完全答对只有学财务的同学。
(图一)
第一道题目,27元是三个人出的,服务员是他进的(账),所以这是两个东西。进(账)的还有谁?老板。所以出的是27元三个人,进账的是老板的25以及服务员2块,所以没有那个1块钱。
第二道题目,出的是他的50块,为什么只有50块?因为这50块是为了完成这一单交易,所以他所有的出就是这个50块。但是他有入的,就是这一笔生意所赚的利润,这个利润是4块,所以就是46,因为他打了八折。
当时我们很受启发的原因在于,可能我们把很多东西都想得复杂。但是分析的过程应该是把复杂的东西简单化,尽可能地用一到两个概念来解决它。所以我们说通过这些生活中的故事或者说发生这些大家经常讨论的东西,我们会得到三个点:
第一,聚焦在矛盾的地方上。如果两个数值,比如说注册到充值、充值到首投是一个流程性的过程,常态来说应该是漏斗流失这样的过程,如果中间出现了反向的,比如注册量少,充值量大,它就是出现了矛盾,那么就要去关注引起这个矛盾的原因。
第二,避免偷换概念。刚才说的那个一块钱去哪了?那个一块钱根本不存在,你去哪找那一块钱?其实概念已经被偷换了。
第三,要把复杂的过程想得简单一点。财务的同学当时就是考虑两个维度,一个是出,一个是入,所以他很快就能得出结果。而我们就会在过程中一而再再而三地反复地算,然后得不出正确的答案。
这就是我举的例子想要跟大家分享的点了。数据分析除了要思考,你可能还要得出结论,如何得出结论?刚才讲的是比较零散的点,我们现在用一个我们生活中实际发生的案例来跟大家过一下一般是怎么样的思维过程来形成完整的报告或者结论。
这道题目就叫“大姨妈与小表弟”。什么意思?过年的时候我回家,我大姨妈跑过来跟我妈聊天说我小表弟快要中考了,然后这次期末考得不太好。大概是这样的情况,她也很担心,说不知道要是考不起好的中学该怎么办。因为我在房间里,我也没听太清楚,但是我出来的时候就接了一个工作,就是我妈给我的。我妈说“快安慰安慰你大姨妈,帮帮你小表弟”。
对于我们来说,就等于是接了一个任务目标了,这个任务目标就是这两句话。这其实是两件事情,在场的同学会从哪些角度去考虑?当然你可以问问题,因为你大姨妈就坐那儿,你可以问她。她的目的也很清晰,她担心的是小表弟能不能考上好高中。接着就是你妈说让你安慰一下她、帮一下你的表弟。大家遇到那种情况,一般会问些什么或者说会从哪些角度来考虑这件事情?在这里,我给大家说一下我的思考方式。
首先,从趋势上进行分析。刚才也有同学谈到,包括环境、行业、竞争对手,就是说小表弟本身的学校排名是什么样的情况。如果他本身是在重点初中里的排名已经很高,你安慰大姨妈肯定首先就是说“这基本上上好一点的高中的问题不大,只是说我们要去哪一个”。好与更好,而不是说好与能不能上,这是两个概念。
另外,班级最近的氛围怎么样?是不是因为环境造成了小表弟这次考试可能没考好?另外就是小表弟近期的情况,是不是身体原因或者怎么样。
这些其实都是外围的情况,看完外围的情况就会多维分解一下小表弟自己的考试。比如说他的分数怎么样、有没有偏科、试卷结构怎么样、怎么样制订目标。比如说他有一科很强,其他的很弱,很弱是因为什么?比如说如果是语文很差,语文是哪一块差?
你这些可以辅助来判断。从安慰大姨妈到帮小表弟的过程应该是更深度地聚焦在到底该怎么样帮的点上,所以要更加往下细分。比如说语文卷面是阅读不好,阅读该怎么办?那就得往下分。
至于用户细分的考虑这一块其实只是一种运用,可能不是特别恰当,但是只是说有这种思维,你会去分析一下。比如说你刚才已经分析出假如小表弟是语文不太好,那么他们班上语文学习好的这些同学是有哪些特征或者他们是怎么样去学语文的。比如说大家都背诗词或者都在看一些报刊,甚至是不是有老师开小课?这些情况你有没有了解清楚或者说家长知不知道?这些都需要去了解。
另外,除了本来就学得好的,还有那种排名上升特别快的同学,这些同学是用了什么方法在这么短的时间内有提升?这个方法是不是小表弟也可以学?这个也可以观察。再下面,关于漏斗流失以及如何分析,按道理来说应该是一个路径,这里不应该这样讲。但是实际上可以把思路变化一下,而不是这样的竖向的固定流失,而有可能是横向的结构问题。我们就可以分析他试卷的以往错误率,是因为这次没考好考砸的,还是你本来这一科就一直不好?这也是需要去了解的。另外就是你错误的板块,到底是因为什么原因?是这次的原因还是历史的原因?这是需要提前了解的。
最后,要快速尝试一下。比如说有些同学排名上升很快的学习方法适不适用?你总要去试一下。
不仅仅是这些维度,还可能有更多的维度。当然因为数据分析是一种思维,思维是没办法拘禁的。无论你经过多少的思考,最后会有一个结论。这个结论一般会是什么样的结构?你已经问了大姨妈这么多问题,最后怎么样整体来回答她?
我们的目标一个是安慰,一个是帮小表弟。我们最终得出的是这样的结论。
首先安慰大姨妈。“大姨妈,你不要着急。从学校和班级的排名来看,小表弟怎么样”,因为首先要对这次小表弟的排名情况或者说考试情况作一个整体的判断,看看这个程度到底去到什么程度,是真的惨不忍睹还是还有得救?你总得给大家一个心理准备,是真的考不起要去花钱找关系,还是说补一补花点钱也能够让他自己努力得了,或者说其实也不要太在意,这次就只是一次小失误。你首先要对大的这次的情况作一个判断。老师对他怎么样是定性?他本身是个什么样的状况?接着就说这次没考好主要是因为什么,这是刚才我们说的哪一个东西影响到他。也就是说我们这次考试除了判断他的事态和程度,还要找到他这次情况的现状,并且分析是因为什么原因导致的。然后“小表弟在这个考点上一直怎么样,从以前的考试情况来看怎么样”,其实是对历史作一个总结。是一直就不怎么样还是说以前的考试还可以,这次不怎么样,要对历史作一个总结。接着就说“他班上的谁在这块学得挺好的,主要是因为怎么样,”那你就要看一下竞品在这一块上到底是怎么做的、有没有借鉴意义?最后就说“我们可以怎么样,下一次考试的目标就是怎么样”,你要对整体作一个建议,以及对目标进行管理。你也不能让大姨妈的期望值太高,要管理期望,不能直接说“高中没问题,考个一中二中什么的”,那也不行,也得让你小表弟喘口气。
整体的回答就会是这样的逻辑结构。你从接到一个标题或者你要分析的东西一直到它最后出结果,整个流程的辅助维度可能就是这些,其实还会有更多的维度来辅助。其实数据分析在生活中是很常见的,大家也都经常使用它。
第二章:数据分析的作用——降低被误概率
除了刚才那些问题可能时不时会发生,但是更多出现的是一些容易被误导的数据。我没有说被骗是因为它也不能叫做骗,只是它误导了你,而你选择了相信。我们经常在一些报刊杂志上看到很多数据就开始传播,我也希望这次听完这些之后,如果不是特别确定的还是不要传播,容易引起恐慌。
如图二,我们来看这些报刊杂志上是怎么样描述这些数据的。首先是“情感专刊的专家通过读者的反馈研究发现,有80%的家庭表示后悔要小孩”。“人们一般认为平均23度感觉舒适”。“当今交通危险日益增长,据不完全统计,现在因为飞机事故丧生的人数是20年前的15倍”。“北京2012年离婚率是39%,有点不敢结婚。居全国之首,预计到2017年将超过50%。”“甲同学期末五科总分450分,乙同学期末五科总分460分,乙同学比甲同学优秀”。接下来这个是最常见的,“2015年,全国32个主要城市平均薪酬为6070元”。最后是参军海报上写的,“美国海军的死亡率为千分之九,而同期的纽约死亡率为千分之十六。所以参军更安全,鼓励大家参军”。这些都是摘自一些报刊杂志上或者说平时经常会出现的一些东西。至于为什么感觉不是骗了你,而是你被它误导?我们讲完这一章之后来回答,大家也可以想一下,大部分可能已经知道在哪有有不对了。
(图二)
我们已经发现了很多生活中出现的“骗”或者说被误导的东西,我们为什么还要统计。哈佛的统计学院的创始人莫斯特勒说过“要用统计很容易,但是不用统计骗人就更容易了”。
什么叫做数据分析?数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。里面包含两个关键信息:第一,有用信息。第二,形成结论。
第一,有用信息。对于数据来说什么是有用信息?主要是三个方面的东西:1、数值。2、比率。3、图形。它还会有很多种,但是我们经常接触到的东西比较多的会是这三种类型。
1、数值
大家平时接触得非常多,算术平均数、众数、中位数,平均数大家知道了,众数就是一个数组里出现得最多次数的那个数,中位数就是它的位置处于那一组数据的中间位置的数字。这三个数里面,只有众数是真数,它是不会改变数本身的任何特性的。中位数是半假数,因为当数组出现偶数的时候,它是需要计算的。只要是你需要第二次计算的,就会出现人为操作上的或者是任何形式上的失误,所以中位数叫半假数。而算术平均数实际上就是一个假数,因为它需要你进行二次计算,而且在计算的过程中会经常出现不可意料的坑。
看图三,三月份投资人数10个,投资总金额1万,平均客单价1000。到了四月份,投资人数涨了,投资金额翻一番,平均客单价是10倍。如果你是做数据分析的,一看到这个数第一时间估计就兴奋得崩溃了,真的要这样往上报吗?
(图三)
它上面写的是平均客单价,当提到“平均”这两个字的时候,需要去看一下数本身的情况,也就是说里面有没有异常值。如果说你追回去,最后发现四月份虽然来了20个投资人,投资金额这么大,结果其中一个投资人自己就投了15万。你再一算,平均客单才2500。结果你把这个报上去,老板跟你说“10倍的增长不错,下个月做平均客单12000吧”,你就把自己坑上了,结果实际才2500,也许整个部门都被你坑上了。
如果真的出现了这样的数要往回追溯,我们说有坑就要埋,怎么样来埋这个坑?首先你要看整个数组里有没有异常值,有异常值是不能用平均值的,必须把异常值剔除掉再来看。
其次,按道理来说数组里应该是看方差,但是实际工作中我不建议引入更多的数据概念。因为能够得出结论并不是说你用的工具越复杂、越高端越好,而是越能快速�...