引言

数据并不是一座座孤岛

在大海中独踞

每个数据点都像一块小小的泥土

连接成整个模型

看到他美妙的诗句“没有谁是一座孤岛”被这样改编,令人尊敬的诗人约翰·唐恩(John Donne)估计会气得从坟墓里跳出来吧,但我真的无法找到更好的方式来表达具有语境和关系网络的数据的本质。求知之路就在于发现这些关系并使其可见。

社会变迁和技术进步使得整个世界更具不确定性。正如另一位诗人 Luís de Camões(不是我的亲戚)所说:“唯一不变的只有变化本身。”在处理不确定性的过程中,我们用技术产生和获取海量的数据。近些年,这种做法曾经有多种不同的称呼,现如今,我们将其称为“大数据”。

获取并存储数据变成了目标,数据越多越好。但我们是不是没有抓住要领?如果没有相应的技能将它们转化成真正有用的数据,那么就不再需要更多的数据了。我们要考虑需要这些数据的人将会如何使用它们,目的是什么。否则,继续搜集无用的数据,将这些数字垃圾存储在硬盘上一个被遗忘的文件夹中,是没有任何意义的。等等,更糟糕的做法是,制成饼图。