前言

本书适合以下几种读者:

· 准备与数据科学家合作、管理面向数据科学的项目或投资数据科学企业的商业人士;

· 即将实施数据科学解决方案的开发人员;

· 志向远大的数据科学家。

本书不讨论算法,不能取代算法主题的图书。我们故意没有采用以算法为中心的方法,是因为我们相信,在从数据中提取有用信息的技术的背后,存在着一套精简的基本概念或原理,而它们构成了许多著名的数据挖掘算法的基础。此外,它们还支撑着以数据为中心的行业问题的分析、数据科学解决方案的构建和评估,以及一般性数据科学策略和提案的评估。因此,我们围绕这些一般性概念和原理而非具体算法组织了本书内容。当有必要描述程序细节时,本书会用文字和图表相结合的方式进行解释,因为我们认为这样比列出详细的算法步骤更易于理解。

尽管本书不要求读者有专业的数学背景,但本书内容具有一定的技术性——本书旨在让读者深入理解数据科学,而非仅对其有个大体认识。本书尽量少用数学语言,多做概念性阐述。

业界同行评价说,本书是能帮助业务团队、技术/研发团队和数据科学团队形成统一认识的无价之宝。这个结论是从一小部分人身上得出的,而我们想知道本书的适用范围到底有多广(详见第5章)。我们希望每位数据科学家都能把这本书推荐给其开发团队或者业务团队里的同事,并对他们说“如果你们迫切希望通过设计/实施顶尖的数据科学解决方案来解决商业问题,那么我们必须对这本书的内容有共同的理解”。

同行还告诉我们,这本书还有个意料之外的作用:可以用来准备数据科学类职位的面试。企业对数据科学家的需求日益增长,相应地,越来越多的求职者自称是数据科学家。每个数据科学岗位的求职者都需要理解本书中呈现的基本原理。(业界同行说,他们很惊讶竟然有那么多人做不到这一点。我们甚至半开玩笑地讨论,是不是紧接着写一本《数据科学求职者笔记》。)