- 图表会说话:Excel数据可视化之美
- (葡)若热·卡蒙伊斯
- 1528字
- 2021-05-18 16:44:08
视网膜变量
在山脉的照片上叠加一层网格,则可以通过到横轴和竖轴的距离来定义图片中的每个点。但景深如何表示呢?可以在第三个维度,或者在数据可视化的语境中,在 轴上改变数据点的位置吗?不可以,因为在图片中只有两个维度。但是,假使存在第三个维度,并可以为我们所用,那会出现什么情况呢?我可不是在说全息图片或更糟糕的 3D 效果哦。
想象一下,你在一座山脉上方飞行(图 1.11),仅仅使用间接线索就可以估算出下方山峰的相对高度,比如利用蓝色的大海、棕色的大地、绿色的森林以及白色的雪等。地图在很早以前就仿照这种形象的比例来在纸面上给我们以高度感。没有任何东西可以阻止我们的大脑生成这种对应关系(颜色—高度),并超越地图表示法。
图 1.11 阿尔卑斯山卫星图
资料来源:NASA
这一领域被数据可视化的创始人之一,法国制图大师雅克·贝尔坦(Jacques Bertin)称为视网膜变量:可以使用点、线和区域的视觉和位置特征来处理图形表示。坐标 和 定义位置,用 维度而不是 轴来显示其他视觉特征。
图 1.12 举例说明了其中的部分变量。第一个例子“位置”仅使用了两个位置变量 和 。第二个例子“亮度”实际上至少包含四个变量——位置( 和 )、亮度和大小,还可能增加更多变量(如多种形状,不同的方向等)。但是在实践中,为了保持图表的可读性,建议增加的变量不超过四个。
图 1.12 视网膜变量
请注意,视网膜变量并不是可互换的。其特点使得它们在表示某种数据类型时很有效,但表示其他数据类型时则没有作用。在传统意义上,变量分为两类。
- 定量的。从理论上说,这些变量可以是一定范围内的任何数值。
- 定性的。这些变量只能是我们所能计数的一些有限的数值。如果这些值具有隐含的数值范围或顺序,则被称为原始变量(如工作日);如果并没有隐含的顺序,则被称为名义变量(如性别、人种、水果、城市等)。
如图 1.12 所示,尽管有不同的精度等级,但位置或大小等变量在表示量化数据时往往排在更前面的位置。纹理和形状等变量更适合用来表示标定数据,因为它们不会在一定范围内变化,也不能感知数据的顺序。例如,在图 1.12 中,如果用纹理来对量化数据进行编码,你能说出哪一个表示最大值吗?色彩(色相) 用来对名义变量进行编码,但我们经常要求它给我们呈现一些它所不能精确表达的内容:类别的有序表示。你能确定这些色彩的顺序吗?使用 这样的形式会不会更好呢?
经过一段时间,好几位学者建议在初始列表中加入新的变量。约克·麦金利(Jock D. Mackinlay)致力于使雅克·贝尔坦的列表更全面,同时按照每个变量在表示定量、序数和名义数据类型时的有效性进行排序。从图 1.13 3中可以看到,约克·麦金利按照有效性程度排序的变量列表。变量位置(position)在三个列表中都位列第一,而形状(shape)在表示定量和序数时都没有用,表示名义数据时的作用也较弱。变量的排序在定量和序数型数据的列表中会有变化,最适合表示定量数据的变量可能不太适合表示序数,而除了少数的例外,在序数和名义数据的列表之间变量的排序则更为固定。
3JockD. Mackinlay. “AutomatingtheDesignofGraphicalPresentationsofRelational Information.”ACM Transactions on Graphics, Vol. 5, No. 2: 110–141, April 1986.
图 1.13 视网膜变量排序
视网膜变量的又一特点是它们吸引注意力的能力。这对于数据相关性的管理来说至关重要。我们可以解读数据,而不是仅仅使用软件默认设置。对视网膜变量特性的处理,不管是着重强调还是不再给予强调,都具有一个技术维度,但需要被限制在视觉修辞的环境里4。在使用如“根据图表”这样的表述时,我们会论及视觉修辞。关于图表的主观性是不可避免的,但综观本书,我们都将寻求可接受的主观性结论,而对开始出现令人误解的可视化的模糊区域进行明确。
4修辞学作为一种通过言语说服别人的艺术,有着悠久的传统。视觉修辞有着相同的目标,也使用了许多相同的策略,但大部分信息使用的是图像而不是文字。简单来说,可以用谎言说服(传统修辞),也可以用图表糊弄(视觉修辞)。