在先进技术逐渐融入自然学科的过程中,学科交叉现象已是大势所趋。
上次我们谈到了机器学习方向的
统计学知识
的学习方法:
机器学习入门——我的统计学该从哪里补起?
而对于数据分析在人工智能领域的应用,本次
竹间智能 数据科学家 张旭
,将分享一些ai方向必学的数据分析课程和相关知识,希望对有意进入该领域的同学有所帮助。
学习数据分析(ai方向)的课程前提,需要明确数据分析(data analysis)和数据科学(data science)的区别。数据分析算作数据科学的一个分支,除了机器学习(machine learning)外,还有很多偏重数据分析的内容,所以如果对于数据科学的各个分支都学的话,可能会因为学的太宽泛而导致多个课程都较难取得突破。
学习数据分析的重点,不仅仅是通过课程来学习知识,更是需要通过课程来培养数据的敏感性,利用数据来激发出更深远的洞察(insights)。
数据分析是一个实践性很强并容易运用于各个领域的专业技能,所以为了有效地学习数据分析,我们需要了解数据分析所涉及的几个重要环节,然后根据兴趣点来学习相关课程。
首先数据分析可以分为:
一、
处理数据(数据准备工作)
在训练模型(train model)前或者整理所需要的数据时,最重要的就是
数据的清洗处理
工作。可能多数情况下我们都在讨论各种machine learning的模型,但是如果训练集这一基础环节出现了问题的话,模型也不会很好。人工智能方向训练模型所需要的数据量比较大、维度也甚广,通常这些数据会有各种各样的问题,所以需要花时间清洗、整理数据。比如,处理缺失值、重复值、异常值等等,尽量将海量数据转换为自己想要的规范格式。
二、训练数据(数据分析过程中
)
在处理完数据后,可以做可视化处理(visualization),观察数据的趋势然后思考模型的运用,从回归模型(regression model)到神经网络,都要进行各种参数的检验工作,这一部分偏重
模型的学习
。
三、数据验证、测试、展现(数据后勤工作)
模型训练完后,会准备测试集去检测模型是否准确,根据测试结果找出其精确率(precision)和召回率(recall),并根据结果调参优化;同时考虑数据的拟合性。当获得数据分析的结果后,接下来重要的一点是如何将数据展现给他人。
如上面的总结,数据分析的前中后期,都可作为数据分析的不同核心点来进行课程学习,因此对于可能需要学习的课程和补充的知识,我从
理论知识
和
编程课程
两个维度总结如下:
1.
统计学、数学:
从代数、微积分、概率论等做入门功课,再到学习线性回归(linear regression)、classification、决策树(tree-based methods),再到支持向量机svm(support vector machine)、无监督学习(unsupervised learning)及流行的各种神经网络;
ai行业知识:
数据分析要有产品思考,所以你需要了解感兴趣的某一个人工智能分领域或人工智能与某个行业相结合的领域知识(对话、图像识别、语音、金融等)。
2.
python、r等:
python、r是kaggle平台上用到的主要工具,也是最流行的数据分析软件;很多咨询公司会用sas、spss、matlab等,因此看对哪个软件有兴趣,再去学习编程课程以及和数据分析相关的有趣的package;
sql、nosql:
数据分析通常都需要掌握结构化查询语言sql (structured query language)的query语句来进行数据库的操作;通常会有mongodb、hbase等nosql数据库,因此这些也可当做一门课程去学习;
spark or hadoop:
用分布式系统处理大数据也是数据分析的一个亮点,将编程运用到mapreduce进行海量数据挖掘处理;另外,能将数据存储在hdfs上,同样是个加分项;
office及其他图形化软件:
要熟练掌握ppt、excel等基础技能,将获取的结果用简洁易懂的方式呈现给看的人;做数据分析visualization很重要,需要学会使用各种可视化图形工具。
图片来源于网络。
竹间智能emotibot以类脑对话系统和情感计算为核心,希望以人工智能技术助力更多行业、机构及个人拥抱ai时代,分享ai发展的红利。
如需转载,请联系竹间智能emotibot,并注明出处。
相关阅读:
作为面试官,如何判断一个面试者的深度学习水平?