推荐序

汪关盛先生邀请我为本书写序,粗粗翻阅后,我的第一个反应是,我可能没有足够的经验和知识来写;接着,细看之下,就被它的内容吸引,书中有许多我希望了解但不知道去哪里找的信息和知识。关于本书的定位、写作过程和阅读对象等,作者团队已经做了很好的介绍,我在此就跟大家简单分享一下我对本书独到之处的一些粗浅看法。

与传统数据处理相比,大数据由于其属性和量级的不同,处理起来也需要遵循不同的理论和采用不同的手段。本书对数据的收集、存储和处理, CPU及网络等资源的分配和同步等做了全面和详细的介绍,是一本关于大数据理论和工程实践的不多见的好书,内容比我读过的其他讨论大数据技术的书要更广泛和深入。本书有助于读者了解大数据从蓝图设计到工程落地需要考虑和到位的各层技术。

在阅读和学习的过程中,我觉得本书有以下几个特点。

1.与现在许多为吸引眼球起个名头大的标题而缺乏实质内容的作品相比,本书的做法正好相反。书中各章节的标题看似很普通,但下面包含的内容却极为丰富,体现了作者对大数据理论和工程问题了解的深度。作者在各章节中引用了一些原创和权威资料,同时适当配置了一些程序作为例子,使我感动于他们的专业精神和为此付出的大量努力。

2.大数据的工程理论和实施技术十分复杂,本书进行了系统的讲述。对工程的每一步、每一层均有详细介绍但内容间并不孤立,一环扣一环,上下文有机关联,从大数据的应用到配套的软、硬底层基础,一气呵成。不少技术书往往就技术论技术,本书能结合应用和应用的需求谈技术,也是它的独到和可贵之处。

3.本书把大数据的工程理论和实践与人工智能结合起来讨论。我一直希望能把传统的数据处理与大数据、人工智能关联理解和融合,这本书的内容和设计对我有所启发。虽然这三个领域各有各的侧重点,但是最终,业务拓展、企业运营和市场开拓一定都需要基于数据的应用和技术,而不管它们需要及处理的数据类型或属性是否相同。这本书为理解大数据、大数据处理及人工智能如何互联互通搭建了一个桥梁。

数据行业经过多年的发展,已成为当前数字经济的主要部分。同时,如所有专业和行业的发展过程一样,它必然会发展出更细和更专门的子领域。我觉得这本书的出版可以加强从事各数据行业子领域的专业人士间的沟通和了解,对整个数据行业的协同发展也有很强的理论和现实意义。

胡本立

国际数据管理协会(DAMA)中国分会主席、世界银行前首席技术官

2018年10月13日于华盛顿