2017年十本必读的大数据&人工智能领域书籍，你都读过吗？

来源：数据猿作者：abby
年关将至，回顾2017，小编记得自己曾在年初的时候给自己定下一个小目标——就是读30本书。然而随着春节的临近，小目标却成了遥不可及的梦。不知道在过去的一年中，你是否也制定过相似的目标，又是否一一实现了呢？没做到没关系，但目标还是要有的，万一实现了呢。因此，贴心的小编就从2017年的【每周一本书】栏目里为大家挑选了十本“最受欢迎”的书籍，希望能给对大数据或是人工智能感兴趣的朋友带来一些帮助。
part 1:工具篇
一、《机器学习之路——caffe、keras、scikit-learn实战》
该书从内容方面共包含两部分内容：机器学习篇和深度学习篇
机器学习篇（1～3 章）：主要从零开始，介绍什么是数据特征，什么是机器学习模型，如何训练模型、调试模型，以及如何评估模型的成绩。通过一些简单的任务例子，讲解在使用模型时如何分析并处理任务数据的特征，如何组合多个模型共同完成任务，并在第3章初步尝试将机器学习技术运用到股票交易中，重复熟悉这些技术的同时，感受机器学习技术在落地到专业领域时常犯的错误。
深度学习篇（4～9 章）：则主要介绍了一些很基础的深度学习模型，如dnn、cnn等，简单涵盖了一些rnn 的概念描述。我们更关注模型的直观原理和背后的生物学设计理念，希望读者能够带着这些理解，直接上手应用深度学习框架。
作者介绍：
阿布，高四维，从2007年一直从事移动相关研发，曾就职奇虎360，百度等互联网公司，擅长安全领域，数据挖掘，机器学习，移动客户端等技术。个人开发软件“i美股”、“中国好声音”等在各个市场可下载。
胥嘉幸，从北京大学研究生阶段开始接触机器学习领域，有很深的理论及数学方面独特的见解与认知，后在百度从事数据发掘分析等工作。
二、《深度学习原理与tensorflow实践》
本书主要介绍了深度学习的基础原理和tensorflow系统基本使用方法。tensorflow是目前机器学习、深度学习领域最优秀的计算系统之一，《深度学习原理与tensorflow实践》结合实例介绍了使用tensorflow开发机器学习应用的详细方法和步骤。同时，《深度学习原理与tensorflow实践》着重讲解了用于图像识别的卷积神经网络和用于自然语言处理的循环神经网络的理论知识及其tensorflow实现方法，并结合实际场景和例子描述了深度学习技术的应用范围与效果。
本书从内容上共分为7个章节：
第1章：介绍了深度学习的由来以及发展趋势，简要说明了人工智能、机器学习、深度学习等名词概念之间的联系。
第2章：主要介绍了tensorflow系统的基础知识和一些重要概念。
第3章：通过对kaggle竞赛平台上的titanic问题的求解实例，介绍了tensorflow系统的基本用法，并简要介绍了机器学习问题中的一些常用的处理技巧。
第4章：介绍了cnn的基本原理和多个经典网络结构，并通过图像风格化的实例展示了cnn在更多场景下应用的可能性。
第5章：介绍了rnn、lstm以及它们的多种变种结构，并通过实例介绍了如何构建实用的语言模型和对话机器人。
第6章：介绍了卷积神经网络与循环神经网络的结合，通过图像检测和图像摘要两个问题介绍了cnn+lstm相结合的威力。
第7章：介绍了机器学习中非常重要的损失函数与优化算法在tensorflow中的实现，对实际使用深度学习解决问题都有极大帮助。
作者简介:
喻俨，百纳信息（海豚浏览器）研发副总裁。2007年加入微软亚洲工程院，2011年加入百纳信息负责海外业务线，从0到1做过多个项目，现致力于ai和大数据产品的研究与应用。
莫瑜，先后任职于微软和海豚浏览器，从事搜索引擎、音乐检索/哼唱搜索、内容分发推荐算法和对话机器人技术研发。长期以来持续关注和实践大规模数据算法性能优化、搜索引擎、推荐系统和人工智能技术。
王琛，英国爱丁堡大学人工智能专业硕士，现为百纳信息技术有限公司人工智能方向负责人。
胡振邦，拥有博士学位，百纳信息技术有限公司高级算法研究员，毕业于中国地质大学计算机学院地学信息工程专业。毕业以来，一直从事图像识别方面的算法研发工作，主要方向包括目标检测、图文检索、图像分类与验证等，在图像处理、计算机视觉等方面都有深厚的积累和经验。
高杰，毕业于扬州中学特招班，1998年入学华中科技大学机械系，兼修管理、会计，自学计算机，2003年考入南京大学软件学院，曾任德国西门子内部sap咨询师，还在中银国际tmt投行、金山软件集团投资部任过职，2015年与合伙人联合创立了图灵科技集团。
三、《keras快速上手：基于python的深度学习实战》
《keras快速上手：基于python的深度学习实战》从如何准备深度学习的环境开始，手把手地教读者如何采集数据，如何运用一些最常用，也是目前被认为最有效的一些深度学习算法来解决实际问题。覆盖的领域包括推荐系统、图像识别、自然语言情感分析、文字生成、时间序列、智能物联网等。
本书以实际应用为导向，强调概念的认知和实用性，对理论的介绍深入浅出，对读者的数学水平要求较低，读者在学习完毕后能使用案例程序举一反三地应用到其具体场景中。
从内容方面本书共分为10个章节：
第1章：介绍搭建深度学习环境，是整本书的基础。
第2章：介绍如何用网络爬虫技术收集数据并使用elasticsearch 存储数据。因为在很多应用中，数据需要读者自行从网上爬取和并加以处理和存储。
第3章：介绍深度学习模型的基本概念。
第4章：介绍深度学习框架 keras 的用法。
第 5~9 章：是5个深度学习的经典应用。我们会依次介绍深度学习在推荐系统、图像识别、自然语言处理、文字生成和时间序列的具体应用。在介绍这些应用的过程中会穿插各种深度学习模型和代码，并和读者分享我们对于这些模型的原理和应用场景的体会。
第10章：抛砖引玉地提出物联网概念。
作者介绍：
谢梁，现任微软云计算核心存储部门首席数据科学家，主持运用机器学习和人工智能方法优化大规模高可用性并行存储系统的运行效率和改进其运维方式。具有十余年机器学习应用经验。
鲁颖，现任谷歌硅谷总部数据科学家，为谷歌应用商城提供核心数据决策分析，利用机器学习和深度学习技术建立用户行为预测模型，为产品优化提供核心数据支持。曾在亚马逊、微软和迪士尼美国总部担任机器学习研究科学家，有着多年使用机器学习和深度学习算法研发为业务提供解决方案的经验。
劳虹岚，现任微软研究院研究工程师，是早期智能硬件项目上视觉和语音研发的核心团队成员，对企业用户和消费者需求体验与ai技术的结合有深刻的理解和丰富的经验。曾在azure和office 365负责处理大流量高并发的后台云端研究和开发，精通一系列系统架构设计和性能优化方面的解决方案。
四、《全栈数据之门》
《全栈数据之门》以数据分析领域最热的python语言为主要线索，介绍了数据分析库numpy、pandas与机器学习库scikit-learn，使用了可视化环境orange 3来理解算法的一些细节。对于机器学习，既有常用算法knn与kmeans的应用，决策树与随机森林的实战，还涉及常用特征工程与深度学习中的自动编程器。在大数据hadoop与hive环境的基础之上，使用spark的ml/mllib库集成了前面的各部分内容，让分布式机器学习更容易。大量的工具与技能实战的介绍将各部分融合成一个全栈的数据科学内容。
本书从内容上共分为8个章节：
第1、2、3 章：内容比较单一，涉及基础的linux、python 与hadoop 知识。如果对这三章中的某些知识不熟悉，建议先阅读。
第4章：本章比较特殊，其内容也是数据科学中比较重要的，不仅需要前3章的知识，也需要部分spark的知识，因为spark的特殊性，单独放到机器学习之后了。
第5、6 章：涉及数据科学中最重要的主题：机器学习与算法，介绍了机器学习的常用环境、概念、方法以及几个典型的算法应用。这两章是本书的难点，如果不熟悉，必须单独攻克。
第7章：spark 本身就是一个全栈框架，无论是在分布式计算还是在机器学习领域，都大有用处。因此最好有前面章节的基础知识，方能更好地理解本章的内容，尤其是mllib/ml 库，必须有机器学习算法的知识。
最后一章：第8章反而是最简单的，因为基本不涉及技术细节，但对整个数据科学的理解，以及技术积累都是非常重要的。
作者介绍：
任柳江，一直工作在数据处理与数据挖掘的第一线，具有丰富的理论知识和实践经验，且精通多种数据挖掘与分析的工具的使用。
五、《druid实时大数据分析原理与实践》
注：druid是一个支持在大型数据集上进行实时查询而设计的开源数据分析和存储系统，提供了低成本、高性能、高可靠性的解决方案，整个系统支持水平扩展，管理方便。
《druid实时大数据分析原理与实践》就是旨在帮助技术人员更好地深入理解druid 技术、大数据分析技术选型、druid 的安装和使用、高级特性的使用，也包括一些源代码的解析，以及一些常见问题的快速回答。
本书从内容上共分为11个章节：
第1章：介绍druid的初级概念；
第2章：对行业中不同的数据分析软件进行介绍和对比，包括一些时序数据库；
第3章：druid的设计理念和架构介绍；
第4章：druid的安装和配置；
第5章：druid的数据摄入；
第6章：查询详解；
第7章：介绍druid的一些高级特性，包括正在积极完善的一些功能；
第8章：核心代码的导读和分析；
第9章：集群管理中的安全和监控；
第10章：介绍几个公司的druid最佳实践；
第11章：druid的生态介绍和展望；
附录a：简要回答了一些常见的问题；
附录b：列出了各个服务模块的参数含义和建议值，方便系统管理。
作者介绍：
欧阳辰，小米商业产品部研发总监，负责广告架构和数据分析平台，擅长数据挖掘，大数据分析和广告搜索架构。
刘麒赟，现任testin云测公司技术总监，全面负责领导团队完成数据分析产品的研发。作为资深数据技术专家，曾为多个著名开源项目（hadoop／sqoop／oozie／druid）贡献源代码，在互联网大数据分析、机器学习和统计学应用等方面拥有丰富的实战经验和相关专利。
张海雷，资深工程师。目前在优酷土豆广告技术团队负责druid集群的维护。活跃在druid中国用户组，druid、redis和storm的开源项目代码贡献者。
高振源，热爱技术，爱智求真的后台开发和数据工程师。先后负责过广告dsp产品、qq公众号精准投放平台、数据分析产品等研发工作。目前在腾讯sng企业产品部，负责企点产品的数据平台工作。
许哲，腾讯后台开发高级工程师，先后参与了公司企业产品消息服务后台、qq公众号后台、qq公众号精准投放平台等研发，目前在腾讯sng企业产品部，负责腾讯企点的后台和数据平台开发工作。
六、《大数据时代小数据分析》
《大数据时代小数据分析》不仅介绍excel而且介绍使用其他工具软件进行数据分析，可用来拓展互联网公司、传统企业、电商企业、管理咨询公司等各行各业从事数据分析工作的分析师和管理者对数据分析的认知，也适合初中级数据分析师或者想进入数据分析行业的有志之士参考阅读。
本书从内容上共分为5个章节：
第1章：知己知彼，百战不殆——风险与预测分析
第2章：运筹帷幄，决胜千里——效益最大化
第3章：图个明白，精彩展现——jmp精彩图表
第4章：抽丝剥茧，明察秋毫——相关分析
第5章：要里子，也要面子——数据展现的艺术
作者简介：
屈泽中，化工专业，数据分析爱好者，爱好使用工具探索数据背后的秘密，略懂excel、lingo、crystal ball、jmp、minitab、xcelsius，工作十余年，一直从事将数据分析与各类业务相结合的研究和学习。
七、《深度学习入门与实践》
深度学习就是人工智能的一个重要实现方法，在语音识别、图像识别、自然语言处理和搜索广告预估等领域都取得了惊人的成果，连声名显赫的alphago都是以他为基础的。
《深度学习入门与实践》的作者以通俗易懂的语言和生动的比喻介绍了回归、人工神经网络等人工智能基本概念。并将tensorflow比喻成神雕大侠杨过手中的玄铁重剑，将caffe的基础cnn比喻成令狐少侠的独孤九剑，读来毫无违和感。
从内容方面该书共分为六个章节：
第一章：通俗的讲解深度学习的常用概念及概念之间的关系，如回归、分类、聚类；监督学习、非监督学习、强化学习；感知机、神经网络等。随后介绍了深度学习的发展历程及前辈学者们对深度学习领域所做出的贡献。最后列出了深度学习及相关领域的著名国际会议、期刊、赛事和学术团队，以方便读者获取学习资料和进行学术研究。
第二章：介绍了深度学习的原理、线性回归、逻辑回归的概念。以生物学家galton所研究的父子身高问题为例介绍了线性回归的基本原理，讲述�...