2.7 高维空间

我们通常会认为各种各样的物体占据着(或者说“生活在”)一个或另一个想象的、抽象的空间。有些空间会有成百上千的维度,以至于我们无法绘制出。但是,因为我们将经常谈论这样的“空间”,所以需要对此类空间的含义有一个大致的了解,这很重要。

这一空间的基本含义是,空间的每个维度(或者轴)都指向一种单独的度量方式。如果我们有一段数据,这段数据中只有一个测量值(如温度),就可以用一个只有单个值的列表来表示它。从视觉上,我们仅用一条线就可以表示测量值的大小,如图2.19所示。我们将这条线称为一维空间(one-dimensional space)。

(a)                         (b)

图2.19 具有单个值的数据段只需要一个轴(或者说维度)就可以绘制。(a)我们通常用x表示横轴;(b)包含3段数据,其相对应的线表示它们的大小,从x轴的左边开始测量

如果我们有两段信息,如温度和风速,那么需要两个维度(或者一个有两项的列表)来保存数据。我们可以通过两个轴进行表示,如图2.20所示。点的位置是这样确定的,沿x轴移动测量得到第一个度量值,然后沿y轴移动测量得到第二个度量值。我们称之为一个二维空间(two-dimensional space)。

(a)                    (b)

图2.20 如果数据有两个值,我们就用两个维度(或者说轴)来绘制它。(a)我们通常用y表示垂直方向;(b)包含4段数据,每段数据在二维空间中的位置都由两个值确定,一个值代表x,而另一个值代表y

如果每段数据有3个值,那么需要一个可以容纳3个值的列表,而这3个维度可以用3个轴来表示,如图2.21所示。我们称之为三维空间(three-dimensional space)。

(a)                        (b)

图2.21 如果每段数据有3个值,就用3个维度(或者说轴)去绘制它。(a)一般第3个轴的方向是垂直于纸面进出的,并标记为z;(b)三维空间中的一些点,我们通过它们所在位置沿xyz轴的长度定位它们。其中的盒子只是为了帮助我们看到点在立方体中的位置

如果有4个值呢?尽管做出了很多大胆的尝试,但是仍然没有一种可以被广泛接受的方法来绘制四维空间,尤其是在二维空间上进行绘制([Banchoff90]和[Norton14])。当上升到五维、十维或是二十维的空间时,二维空间更是限制我们的一大原因。

这些高维度空间看起来似乎很深奥、很罕见,但实际上它们很常见,我们每天都可以见到。为了证实这一点,让我们考虑一下用什么样的空间来表示一张照片。

假设有一个灰度图像是500像素×500像素的,那么该用多大的空间来表示这个图像呢?一条边上有500个像素,那么整个图像就是500像素×500像素=250000个像素。其中的每个像素都包含一个值,或者说它们都包含一个度量值。从整个空间的一个角落开始,向右移动(沿着x轴)第一个像素值给定的距离,然后向上移动(沿着y轴)第二个像素值给定的距离,再向后移动(沿着z轴)第三个像素值给定的距离,之后沿着第四个轴移动由第四个像素给定的距离。以此类推,随后是第五个轴、第六个轴等,让每个像素都沿着它们相对应的轴移动,这些轴都是不同的。

因为有250000个像素,所以需要250000个维度。这是一个很大的维度!有时,每个像素也可能需要3个值,就需要3 × 250000=750000个维度。

我们画不出750000维的图像,甚至无法在脑海中描绘出一个维度如此多的图像。但是,机器学习算法可以像处理二维或三维空间那样轻松地处理这样的空间。数学和算法并不关心一个空间有多少个维度。

要记住的关键是:在这个庞大的空间中,每条数据都是单独的点,就像二维空间中的点用两个数字告诉我们它在平面上的位置一样,750000维空间中的点只是用750000个数字告诉我们它在这个庞大空间中的位置。因此可以说,图像是由一个巨大的“图像空间”中的一个点表示的。

我们把有很多维度的空间称为高维空间(high-dimensional space),而对于多少维才算“高”维这一点,目前还没有一个正式的、统一的规定,但是这个短语常用于描述那些超出我们可以合理绘制的范围的空间,也就是高于三维的空间。当然,大多数人认为数十或数百个维度才称得上“高”维。

本书所用算法最大的优点之一就是:它们可以处理任意维度的数据,甚至可以处理近一百万维的图像。当涉及更多的数据时,算法的运行速度会变慢,但是它运行的流程不会发生任何更改。

本书频繁使用的数据可以被抽象成高维空间中的点。我们会侧重于对刚刚看到的概念进行直观的概括,而不是深入数学中。我们会把“空间”看作对直线、正方形和立方体的巨大(无法可视化的)类比,其中每段数据都由用一个点表示。