第二部分 理解人的感官与其输入/输出设备的关系

第3章 视觉的机制

人眼是工程学上的一个奇迹。人体所有感官的受体有70%位于眼睛。40%的大脑皮层被认为与视觉信息处理的某些方面有关联。为充分了解虚拟和增强现实背后的关键技术,有必要了解这些系统所涉及的主要感官机制。本章我们将探讨人眼的视觉机制,重点是能让我们感知现实和虚拟世界的生理过程。

3.1 视觉通路

一切从光开始。光是人类视觉刺激的关键。光是一种电磁辐射,可以刺激视网膜从而产生视觉。光在空间里移动,就好像波纹在池塘的水面移动一样。在科学上电磁辐射按波长(即相邻两个波峰之间的距离)分类。电磁光谱的整个范围包括无线电波、红外线、可见光、紫外线、X光和伽马射线。如图3-1所示,人眼仅能感觉电磁光谱中很窄的一段,即大致为波长380纳米至740纳米的区间。一纳米(nm)是一米的百万分之一。

图3-1 本图显示的是电磁光谱的整个区间,其中部分是电磁光谱中眼睛的视网膜能自然感觉的部分

图片来源:Peter Hermes Furian在Depositphotos.com的照片

需要说清楚的是,电磁光谱的上述各个区间之间并没有明确的界限,相邻区间的过渡是渐进式的,就像彩虹的条纹一样。伽马射线的波段渐进式地过渡到X光波段,X光波段又渐进式地过渡到紫外线波段,依此类推。人眼可以感觉到的最长波段对应于我们看到的红色,而最短的波段对应于我们看到的紫色。但是,以上光谱并没有包括健康的人眼所能区分的所有颜色。比如,粉色、紫红和绛红等不饱和颜色是不同波长的混合。

在现实世界中,物体的可见颜色取决于其吸收或反射的光的波长。只有反射光才能到达人眼,被感觉为某种颜色,即所谓的光谱反射。举个简单的例子,一般植物的叶子反射绿色波段,吸收红色、橙色、蓝色和紫色。

3.1.1 进入眼睛

人眼是一个复杂的光学感应器,但如果知道人眼与照相机在功能上类似就比较容易理解。光通过照相机中的一系列光学元件,然后完成折射和聚集。通过光圈控制穿过光圈孔的光的数量。穿过光圈孔的光最终达到成像平面。如图3-2所示,人眼执行相同的基本功能:角膜和眼球晶状体执行聚焦功能,而虹膜则相当于相机的光圈控制装置,仅允许适当数量的光穿过光圈孔。与相机不同的是,反向的光场不是落在胶片上,而是落在极其敏感的视网膜上。

图3-2 本图显示的是人眼的纵剖面图,可以看到人眼的主要结构和腔室

图片来源:guniita在123RF.com的照片

1.角膜

来自视野内各个方向的光最先进入人眼的角膜。角膜是一个透明的球面结构,其表面由组织良好的细胞和蛋白质组成。人眼对光的折射大多数(约80%)在空气与角膜的界面处完成,这是因为角膜弧面各个点的折射率差别很大。角膜后面是另外一个透明结构,称为眼球晶状体。眼球晶状体是一个精确的聚集结构,因为其形状可以改变,可以实现光学系统所需的不同有效焦距(Delamere,2005)。这两个光学结构之间的空间称为前房。前房充满了由睫状体产生的透明水状液体,称为房水。房水为中间角膜和眼球晶状体提供营养(主要是氨基酸和葡萄糖),因为这两个光学结构自身没有血液供应。角膜的前侧通过眼泪获取相同的营养——人在眨眼时眼泪就分布在角膜的表面。

2.瞳孔

光穿过角膜和充满水状物的前房后,其中的一部分穿过虹膜中间的孔——虹膜是一个彩色结构。这个孔称为瞳孔。光通过瞳孔后便刺激视网膜。瞳孔看起来是黑色,这是因为穿过瞳孔的光大多数被眼睛的内侧吸收,几乎没有反射光。

如前所述,瞳孔与相机的光圈孔类似,其尺寸可以按视觉刺激的变化而变化。虹膜扩张后的形态如图3-3所示。在光比较少的情况下,瞳孔扩大以让更多的光进入。在明亮的环境下,瞳孔则收缩,尺寸变小。这个不由自主的反应称为瞳孔反射。

图3-3 瞳孔与相机的光圈孔类似,其尺寸可以随着视觉刺激和焦距的变化而收缩

图片来源:hfsimaging在123RF.com的照片

3.眼球晶状体

光穿过瞳孔后立即进入一个称为眼球晶状体的光学结构。眼球晶状体是一个几乎完全透明、柔性的结构,由同心的纤维细胞结构组成。大多数表层纤维代谢活跃,而且与角膜类似,眼球晶状体从环绕其周围的液体获取营养。

(1)适应性调节

眼球晶状体由环绕其外围的睫状肌和悬韧带固定位置。如图3-4所示,当眼睛处于松弛的状态,比如当你随意眺望远方时,眼球晶状体呈平直状态,这样就可以实现远距离视觉所需的最大焦距。为实现这个形状,环绕眼球晶状体的睫状肌(像所有的辐状肌一样)由收缩状态变为扩大、开放的状态。此时,在连接睫状肌和眼球晶状体的悬韧带上形成向外的张力,从而使眼球晶状体呈平直状态。当眼睛关注的是近距离的物体时,则以上过程相反。环绕眼球晶状体的睫状肌收缩,这样便释放悬韧带的张力,使眼球晶状体处于自然的双面外凸的更接近球状的形状,从而增加其关注近距离物体所需的折光力。这个变化过程称为适应性调节。眼睛正是通过适应性调节来改变其光学能力,使得观察者可以根据视野中物体的远近快速变换焦距。

图3-4 这张图显示的是适应性调节的过程,眼睛由此改变其光学能力,使得观察者可以根据不同物体快速变换焦距

图片来源:alila在123RF.com的照片

普遍认为视网膜模糊是适应性调节的刺激源,但这个过程与辐辏也有很大的关系(Leigh and Zee,2015,524),这将在本章稍后讨论。

这个特别的反射作用,虽然是观察现实世界时的完美机制,但在使用大多数现有的三维显示技术时会给我们造成很大的困扰。第21章将讨论相关内容。其中的一个挑战是:三维显示装置是将图像呈现在二维的表面上。因此,焦距调节所需的刺激源,比如辐辏和视网膜成像的模糊,是显示装置表面的深度变化,而不是所展示的场景的深度变化。另外,三维显示装置需要将辐辏和调节之间的自然耦合断开,从而经常造成整合双眼刺激的能力降低,使三维显示装置的使用者感到不舒服或疲劳(Lambooij等,2009)。

有趣的一点是,眼球晶状体在大约40岁以前都非常具有弹性,40岁以后便逐渐丧失其弹性。因外围结构的代谢活动而变得越来越僵硬,到55岁左右,睫状肌的收缩不再能改变眼球晶状体的形状(Atchison,1995; Duane,1912)。

(2)映像反向

到目前为止,我们已经看到眼睛拥有一个复合的镜片系统。光进入眼睛时穿过一系列介质,先是穿过空气,然后进入密度更高的介质(角膜)。大约80%的折射和聚集由角膜实现,剩余的20%由眼球晶状体实现。角膜是结实的固定镜片结构,而眼球晶状体则是可变的、双面凸起的镜片结构。按凸透镜的折射原理,光束会穿过位于另一侧的焦点。如图3-5所示(虽然比例不恰当),进入眼睛的光场在到达视网膜之前在光学上是反向的。

图3-5 因眼球晶状体是双面凸起的,所以进入眼睛的光场是反向的

图片来源:peterhermesfurian在123RF.com的照片

4.玻璃体

光在穿过眼球晶状体后进入眼睛的前房,前房充满透明的胶状物质,称为房水。光可以很容易地穿过房水,因为房水在这方面有完美的特性,这一点不难想象。房水由98%的水、透明质酸(增加黏稠度)、网状的纤细胶原纤维(房水由此而呈胶状)以及各种盐和糖组成(Suri and Banerjee,2006)。房水基本静止,不能进行主动性再生,也不能通过血管补给。

3.1.2 映像的形成与探测

本章到目前为止我们讨论了电磁光谱、如何按波长进行分类,以及人眼可以感觉的波长进入人眼后如何转换,现在我们要讨论如何实际上“看见”光经过以上转换后的状态。这种在星光和阳光环境下都可以实现的转换机制可以让我们识别物体的空间位置,让我们感知形状、尺寸、颜色、纹理,以及其他维度的信息,这样我们就可以理解周围的事物并得到一些启示。

1.视网膜

视觉过程始于眼睛的光学结构把光聚集在视网膜(英文“retina”,源于拉丁语“rete”,意思是网络)上。视网膜是一个多层的感官组织,覆盖眼睛大约65%的内表面,其功能类似于照相机的胶片(或摄像头的CMOS/CCD图像传感器)。视网膜的厚度为0.15毫米至0.320毫米(Kolb等,1995)。如图3-6所示,靠近视网膜中间的结构称为斑,斑的中间称为中央凹。当我们注视一个物体时,中央凹便自然地将该物体置于中心位置。中央凹是视网膜上灵敏度最高的点。眼睛的整个复杂的上层结构就是为实现视网膜的功能而存在的(Hubel,1995)。

图3-6 这张图片显示的是通过检目镜看到的视网膜形态

图片来源:Zyxwv99在Wikimedia的照片,获CC 2.0许可

令人惊奇的是视网膜几乎是完全透明的(Huang等,1991; Slater和Usoh,1993;D'Amico,1994)。光落在视网膜上,或者说直接穿过视网膜,直至其最终或最深的一层,这一层称为色素上皮层,如图3-7所示。此时图像反射回至直接相邻的一层,这一层上有感光神经元。

图3-7 人眼视网膜的横截面图,可以看到其复杂的结构

图片来源:OpenStax College在Wikimedia的照片,获CC 3.0许可

2.视杆和视锥

眼睛感光细胞,因其形状而称为视杆和视锥,实际上是背朝光的方向。视杆的数量较多,负责在低光能级时的视觉,是非常灵敏的运动探测器。视杆主要存在于视网膜的外围区域,负责边界视觉。视锥在高光能级时处于活跃状态,空间灵敏度很高,负责感知颜色。

从色素上皮层反射的光与两种光色素发生化学反应:视锥中的视紫蓝质(在明亮的环境下反应)和视杆中的视紫红质(在昏暗的环境下反应)。这个化学反应称为异构化,其结果是改变了感光细胞的电性能并释放神经传送体(化学传送体/传送体物质)。这些神经传送体刺激相邻的神经元,从而使神经脉冲在细胞间以接力的方式传递。

按实际测量的反应曲线(见图3-8),单个视锥能感知以下三种光照环境之一:红色(数量最多),在波长为564纳米时最灵敏;绿色,在波长为533纳米时最灵敏;蓝色,在波长为437纳米最灵敏。视杆在波长为498纳米时最灵敏(绿色-蓝色)(FAA,2016)。

图3-8 这张图显示的是不同的视锥(波长437纳米、533纳米和564纳米)和视杆(波长498纳米)的反应曲线

图片来源:Pancrat在Wikimedia的照片,获CC 3.0许可

来自于视杆和视锥的脉冲刺激双极细胞,后者又相应刺激神经节细胞。这些脉冲传至神经节细胞的轴突,通过视神经和视觉盲点传至大脑的视觉中心。

3.视杆和视锥的密度

每个视网膜内有大约1亿至1.2亿个视杆感光细胞、7千万至8千万个视锥感光细胞(Riggs,1971)。如图3-9所示,大多数视锥集聚于中央凹,而视杆密集于其他区域(不存在于中央凹)。虽然一般白天的光照水平下视觉以视锥的作用为主导,但人眼视网膜中的视杆数量要远远多于视锥(Purves等,2001)。

图3-9 从这张图可以了解为什么在视线的直线范围内我们对颜色的视觉(明视觉)最清楚。中央凹区域的视锥最多,大约是每平方毫米150000个视锥

图片来源:Cmglee在Wikimedia的照片,获CC 3.0许可

有必要指出的是,视觉盲点区域(更准确地说是视神经头)没有感光细胞。没有感光细胞意味着在这个区域感受不到光,从而使每只眼睛有一个盲点。左眼的视觉盲点位于视觉中心的左方,而右眼的情况则相反。双眼同时睁开时,我们感觉不到视觉盲点,因为两个眼睛的视野部分重叠,但是仍然可以感受到视觉盲点。按图3-10图题部分的提示,你可以找到你的视觉盲点。

图3-10 可以按下述方法找到每只眼睛的视觉盲点:先把这本书平放在桌子上。遮住你的右眼,然后注视图左边的点。同时保持对上图右边十字形的视觉,但不要直视。然后将脸慢慢靠近图片。当脸与图片的距离达到某个点,十字形消失了。按相反的方式重复上述步骤即可找到右眼的盲点

图片来源:S. Aukstakalnis

3.2 空间视觉和深度感知线索

按照上一节所描述的视觉过程,每一秒钟都有几十亿个信息片段传送到大脑皮层。信息流传送的过程是信息得以不断提炼的过程,也是信息的组织复杂性不断提高的过程。在这个过程的每个阶段,神经元按非常具体的刺激模式组织起来,脉冲在大脑皮层的目标区域不同,则其内容和刺激源也不同。理论上,信息表现的性质(神经脉冲的模式)被认为是从模拟性向象征性转变(Mather,2009)。

本节我们将探究各种具体的被认为能使大脑感觉进入眼睛的视觉刺激的深度触发源或信息线索。

3.2.1 非来自于视网膜的信息线索

非来自于视网膜的深度信息线索是那些不是由进入眼睛并弥漫在视网膜上的光图案形成的刺激源或信息片段,而是来自于其他生理过程。本节我们主要探究这些信息线索中最主要的两类。

1.适应性调节

如上一节所述,当人眼处于放松的状态,比如当你随意眺望远方时,眼球晶状体呈平直状态,这样就可以实现远距离视觉所需的最大焦距。如图3-11所示,当眼睛关注的是近距离的物体时,则以上过程相反。环绕眼球晶状体的睫状肌收缩,这样便释放悬韧带的张力,使眼球晶状体处于自然的双面外凸的更接近球状的形状,从而增加其关注近距离物体所需的折光力。

图3-11 适应性调节是观察者的眼睛改变光能量以获得清晰的图像或在不同的焦平面上对物体聚焦的过程。如图所示,睫状肌的收缩和松弛影响眼球晶状体的焦距

图片来源:S. Aukstakalnis

适应性调节是一个不自觉的生理过程,这样眼睛的镜片结构的视觉能力可以变化以聚焦进入眼睛、落在视网膜上的光。普遍认为视网膜模糊是适应性调节的刺激源,但这个过程与辐辏也有很大的关系(Leigh and Zee, 2015,524)。也有理论研究认为是睫状肌本身的运动形成了这种信息线索(Helmholtz等,1944)。

2.辐辏

最强大的深度信息线索是眼睛的辐辏运动,即双眼的中央凹同时指向近距离视野中的物体。这个眼球运动功能也是双眼视觉的基础。如图3-12所示,这个过程意味着双眼同时绕其纵轴转动,但方向相反。转动的角度足以使注视近距离的物体时所投射的图像与双眼视网膜的中心对准。当注视近视野中的一个物体时,双眼以相互趋近的方向转动,或聚拢。当注视远视野中的一个物体时,双眼以相互偏离的方向转动,或分开。

图3-12 辐辏是双眼以相反的方向同时运作,以获得或保持双眼视觉

图片来源:Ginko在Depositphotos.com的照片

双眼以相反的方向转动,称为非结合性动作。实际上眼睛的所有其他动作都是一起的,或结合性的。

调节和辐辏通常是相互联系的生理过程。比如,将眼睛聚焦在远处的某个东西,然后将你的注意力转移到近处的某个物体,这个过程的一开始你的双眼相互靠近以注视近视野中的物体。此时在视网膜上形成的图像看起来更大,并且模糊(焦距还没调整好)。这个模糊的图像于是触发适应性调节的生理反射,从而使得眼球晶状体的光能量改变,并将视网膜上的图像的焦距调整精确。

对于虚拟和增强现实的发烧友来说,理解辐辏和调节过程非常重要。平板型头戴式立体显示装置的使用者经常抱怨头疼或眼睛疲劳(另见第21章的讨论)。这种副作用是因为眼睛必须注视在平板上(显示装置的平面),而平板与眼睛只有几英寸1英寸=0.0254米。——编辑注的距离。即使你注意到看起来处于虚拟空间不同焦平面的物体,并为此深度适应和调整,但毕竟深度仍然是模拟出来的。呈现在眼前的图像是绘制在二维的显示平面上,并且眼睛一直注视着这个二维平面。也就是说眼睛一直注视显示装置平面上的近视野(可能是通过收缩眼睛晶状体边缘的睫状肌实现的),这就是以上不舒服感的主要原因。另外,辐辏和调节提供给大脑的视觉线索并不相互匹配,或者说没有耦合关系。

上述辐辏线索还有一个方面,就是在六块眼外肌内形成张力(见图3-13),眼外肌控制眼睛的动作(Jung等,2010)。

图3-13 本图显示的是六块眼状肌,其作用是控制眼睛的动作。外直肌和内直肌(在另一侧,图中未显示)是控制辐辏的主要肌肉

图片来源:alila在123RF.com的照片

3.2.2 双眼视觉信息线索

双眼视觉深度信息线索是那些双眼同时观看一个场景时所探测到的信息源或信息片段,两只眼睛是从各自稍微不同的有利位置提供这些信息线索。两只眼睛所看到的场景由大脑进行三维整合,这样便可以理解现实或虚拟环境。

立体视觉

双眼视觉是两只眼睛的视觉。双眼视觉的主要深度信息线索称为立体视觉,是视网膜或水平差异性的结果。我们有两只眼睛,其横向的平均距离为约2.5英寸(63毫米)(Dodgson,2004)。两只眼睛从各自稍微不同的角度捕捉场景。如图3-14所示,立体视觉是通过大脑对两只眼睛所看到的不同场景根据视网膜影像的不同进行补偿、建构而获得的深度感觉。

图3-14 立体视觉是两只眼睛根据视觉信息而形成的深度感觉和三维结构

图片来源:S. Aukstakalnis

据研究称,在双眼视野中,一侧视网膜上的点在另一侧的视网膜上也有一个对应的点(Howard和Rogers,2012,150)。两个视网膜上的点相互对应,与观察者眼前一个称为双眼视界的区域有关,如图3-15所示。术语“horopter”(双眼视界)的意思为视觉的范围,由François d'Aguilon(比利时数学家、物理学家和建筑设计师)于1613年首创。这个术语指的是某特定固定距离上物体的点在相应的视网膜结构上所形成影像的轨迹。因此,可以通过物体画一条线,而这条线上所有的点在两个视网膜上都有相同的对应点。这样我们看到的物体就是一个单一的点。理论上,双眼视界是这样一个轨迹空间:其中每一个点的成像都对应于双眼注视的一个点(Howard和Rogers,2012,150)。

图3-15 这张图解释了双眼视界的概念,双眼视界是与注视的差异性对应的点在空间中的轨迹。从理论角度来说,这是在两个视网膜上投射出在解剖学上相同或对应点的空间中的所有点。注意点R、P和Q如何在两个视网膜上形成相同的影像

图片来源:Vlcekmi3在Wikimedia的照片,获CC 3.0许可

按照这个模型,如果对应的点至视网膜的水平距离正常,则双眼视界是分别经过两只眼睛的转动中心和注视点的圆。因此,当注视点变近,则这个圆变小(Bhola,2006)。

从图3-16所示的两张相同的立体图可以了解由双眼差异性形成立体视觉的简单概念。可以用所谓的斗鸡眼方法观察这两张印刷品的立体图像。如果你从来没有尝试过,可能得花几分钟时间才能掌握,但值得一试。其方法是,先把这本书放在你面前约2英尺1英尺=0.3048米。——编辑注处,然后直视这两张图像,然后慢慢地交叉你的眼睛。此时你会感觉到在这两张图片中间还有第三张图片。调整你双眼交叉的程度,直至你能在中间看到一个稳定的图像,此时你会看到宇航员漂浮在月球表面的上方。

图3-16 这一对三维图像的立体差异性有力地表明视觉对距离的感知。观察这一对立体图片的方法是慢慢地交叉你的双眼,并试图形成第三张融合性的图片

图片来源:NASA

顺便说一下,当你做到两张图片融合并能感觉深度后,慢慢地把你的头向左、右摆动。这两张图片便会垂直分离,这是因为此时两个视网膜上的成像发生位置移动从而丧失了立体视觉。

最后,本章之前已介绍过,大脑视皮层中的神经元可以帮助产生由双眼差异性形成的立体视觉。

3.2.3 单眼视觉信息线索

单眼视觉深度信息线索是由视网膜上的光图案形成,但不需双眼同时起作用的刺激源或信息系统。本节我们将看到单眼视觉信息线索可以分为以下两类:需要光图案在视网膜上移动的信息线索(即观察者运动)和从固定的观看位置即可察觉的信息线索。

1.运动视差

运动视差即观察者移动时会发现近处的物体看起来比远处的物体移动得更快,这是一种强大的、相对运动的信息线索(Gibson等,1959; Ono等,1986)。图3-17示意的就是这种现象。从物理学的角度,形成这种视觉现象的原因是图像在眼睛视网膜上移动的速度。近处的物体相对于远处的物体进入、穿过和退出你视野的速度快很多。

图3-17 运动视差即当你在移动时近处的物体相对于背景环境的相对速度更快的视觉效果

图片来源:sergeiminsk和Ginko在123RF.com的照片

这种视觉信息线索提供有关相对深度差异的重要信息,可以可靠地建构三维场景,帮助我们在环境中航行(Helmholtz,1925)。图像在视网膜上的运动形成两类运动边界:与观察者运动方向平行则提供穿越性的信息;与观察者的运动方向垂直则提供有关动态遮蔽的信息,即近视野中的物体动态地遮蔽或显露远视野中的物体(Yoonessi和Baker,2013)。

2.遮蔽

当一个物体阻挡了观察者对另一个物体的视线时,便形成遮蔽(又称为干涉)信息线索。此时观察者会感觉到处于阻挡位置的物体比被阻挡的物体更近。从图3-18可以很清楚地看到一点。

图3-18 遮蔽(或干涉)即一个物体部分阻挡另一个物体的视线,是一种简单但有力的深度信息线索

图片来源:joyful在Depositphotos.com的照片

图中的汽车一辆一辆地被遮蔽,由此我们可以很明确地感觉到深度。遮蔽所显示的是相对距离(而不是绝对距离)。

最近的研究进一步证明了这种信息线索在立体深度感官方面可能很重要(Harris和Wilcox,2009)。有些研究指出遮蔽信息线索在立体深度感官方面的主要功能是确定深度的非连续性以及阻挡物的边界(Anderson,1994; Gillam和Borsting,1988; Nakayama和Shimojo,1990)。

3.删除和增强

遮蔽现象有两个组成部分:删除(隐藏)和增强(显露),指的是当你的观察点移动时,近视野中的物体或表面显露或遮蔽远视野中的物体或表面。在现实和虚拟的环境中,如果近视野中的物体或表面比远视野中的物体或表面相对于观察者的距离要小很多,则当你移动时远处物体的删除或增强的速度会更快,如图3-19所示。相反,如果两个物体都在远视野中且相互之间的距离很小,则删除或增强的速度要慢一些。

图3-19 人类的视觉系统可以感知深度,即使唯一有用的视觉结构信息来自于运动

图片来源:S. Aukstakalnis

即使不明显,无论观察者往任何方向移动,删除和增强现象都会发生。

在设计虚拟环境模拟时记住这种信息线索非常重要。在特定的环境下,可以通过这些信息线索产生各种有趣的效果。

4.线性透视

线性透视线条会聚集在远处的某个单一的点,是一种单眼视觉信息线索(Khatoon,2011,98)。如图3-20所示,当注视某处走廊的照片时,我们知道图中的墙壁间的距离并不会越来越小,而是始终保持平行的。

图3-20 线性透视即平行线条间的距离越来越小,看起来越来越靠近,这是一种深度信息。线条的距离越近,则看起来越远

图片来源:Warren R.M. Stuart的Flickr相册,获CC 2.0许可

5.动态深度效应(源于运动的视觉结构)

动态深度效应是由物体的运动形成的对物体的复杂三维结构的感知。没有移动介质很难解释或展示,但你可以想象一个悬空在光和墙壁之间的立方体。如果静止不动,那么这个立方体的轮廓看起来可能像是图3-21中的任何一个。即使是图左上方的四方形从感官上来看也只是一个四方形。但当逐个观察其余的图形,大多数观察者很快就会感觉到这些轮廓图是源于一个立方体,即使没有其他深度信息或表面细节。

图3-21 动态深度效应表明可以从移动的二维视觉图形感知三维结构

图片来源:S. Aukstakalnis

有关这个现象的研究文献最早发表于20世纪50年代,基于研究人员Hans Wallach和D. N. O'Connell所进行的实验(Wallach和O'Connell,1953)。之后对此进行了广泛的研究,有关如何感知三维形状主要有两个理论。第一个理论认为三维形状感知是因为物体移动时视网膜上所模拟生成的图像会变化,第二个理论认为是与之前的经验有关。在大多数情况下,动态深度效应是与其他深度信息线索一同感知,比如上述运动视差。

6.尺寸经验

正如这种信息线索的名字所示,如果知道远处某个物体的大小,我们的大脑能根据这方面的理解估测绝对距离,如图3-22所示。有些研究认为,这一点可以重新定性为我们对身体的尺寸和物体的尺寸的相对关系的意识,因为理解一个物体的尺寸必须以某个相对尺寸为基础,那么身体是我们所拥有的、可以用来作为比较的相对尺寸(Linkenauger等,2013)。

图3-22 尺寸经验信息线索是利用观察者有关被观察物体的知识,以帮助估测绝对距离

图片来源:Anoldent的Flickr相册,获CC 2.0许可

7.相对尺寸

如图3-23所示,如果两个物体的尺寸相仿,但因为相对于观察者的距离不同而看起来尺寸不一样,我们便能感知在视网膜上成像比较小的距离较远,而成像较大的则距离较近。这种深度信息线索主要是基于个人经验。

图3-23 如果两个物体的尺寸相同,但与观察者的距离不一样,则较远者在视网膜上所占据的面积要小。如果视网膜上的成像较大,则看起来更近

图片来源:S. Aukstakalnis

8.立体透视

立体透视(又称为空气透视)指光因远处物体或场景与观察者之间的空气中有颗粒物(比如水蒸气和烟尘)而发生散射的效应。如图3-24所示,距离越远,则物体或场景与其背景之间的对比度越小。物体上的标识和细节也是如此。如照片中所示,远处的山变得越来越不饱和,并逐渐过渡到背景颜色。列奥纳多·达·芬奇将这种信息线索称为“消失之透视”。

图3-24 从这张照片可以看到随着相对于观察者的距离的增加,颜色饱和度、对比度和细节越来越小(少)

图片来源:WSilver的Flickr相册,获CC 2.0许可

有这种空气效应是因为可见的蓝色光的波长很短,大约是475纳米。因此,空气中的颗粒物对蓝色光的散射效应更大,这也就是天空通常看起来是蓝色的原因。在日出或日落时,橙色(590纳米)和红色(650纳米)是主导的颜色,因为相关的波长比较长,在空气中散射较小。

9.纹理递变

纹理递变是指物体的纹理和图案随着相对于观察者的距离增加看起来发生逐渐变化,即从粗大变得细小(或变得越来越不清楚)。如图3-25所示,凸凹有致的鹅卵石随着相对于观察者的距离增加变得越来越不清晰,直至变得看起来像是一个连续的平面。

图3-25 这张照片很好地展示了纹理渐变效应,随着相对于观察者的距离的增加,物体的纹理图案的视觉效果逐渐发生变化,即从粗大变得细小

图片来源:Jeremy Keith的Flickr相册,获CC 2.0许可

这种信息线索有以下三个特点(Mather,2006)。

❏透视逐渐过渡——随着距离增加,与倾面或观察角度垂直的单个纹理图案间的分割度变得越来越小。

❏压缩逐渐过渡——随着距离增加,纹理图案的视觉高度变得越来越小。

❏密度逐渐过渡——随着距离增加,视觉单位面积的纹理图案数变得越来越大。

10.照明/影线/阴影

照明、影线和阴影是感知场景深度和物体几何尺寸的有力信息线索,其效果的变化范围很大。阴影的角度和对比度影响所感知的深度。一个物体因另一个物体而形成的阴影和反射可提供关于距离和位置的信息。如果一个物体的阴影较小、较清晰,则一般表明该物体至阴影投影所在会物体或平面的距离较小。类似地,如果增大阴影面积并使阴影的轮廓边缘模糊,在视觉上会感觉深度更大。光与非平整表面的交互方式可在很大程度上显示其几何尺寸和纹理的信息。图3-26显示了这方面的几种不同效果。

图3-26 这张照片可以直观地说明影线和阴影可以显著影响对封闭空间的深度感知

图片来源:Julian Herzog在Wikimedia的照片,获CC 4.0许可

11.视像扩大

将你的手臂平直伸出,手掌向上,然后将你的手慢慢向脸移动。当你的手越来越靠近,投射于你的视网膜上的图像相应变得越来越大、遮蔽的背景也越来越多。这种视觉信息线索称为视像扩大,这不仅可以帮助观察者感觉物体的移动,还有助于观察者感觉距离(Ittelson,1951)。人在很小的年纪便开始形成这种对动态刺激源的感知,比如,我们可以观察到婴儿在一个物体直接向其移动时会表现出协调一致的防御性反应(Bower et al., 1970)。图3-27是用静止画面表示这种视觉信息线索的效果。不仅距离越小物体看起来越大,而且背景信息线索越来越少,直至消失。

图3-27 视像扩大的视觉效果即当物体向我们移动时其视网膜成像变得越来越大,遮蔽的背景越来越多

图片来源:S. Aukstakalnis

12.相对高度

在一般的视觉条件下,对于处在同一平面的不同物体,处于近视野者的视网膜成像位于视网膜的下部区域,而处于远视野者的视网膜成像位于视网膜的上部区域。这种现象可以通过图3-28所示的简单例子来解释。其中的关键是你的高度相对于视野中的物体的高度。相反,如果是位于你的视点上方的同一平面上的不同被观察物,比如天花板上的一排灯笼,近处的物体位于视网膜的下部区域,远处的物体则处于上部区域。很多个世纪以前艺术家就开始采用这种技术在二维的图纸和绘画上描绘深度。

图3-28 相对高度的概念即远处的物体相对于近处的物体看起来更小、更高,或利用这种视觉现象描绘处于不同观察距离的物体

图片来源:Naomi / Mitch Altman的Flickr相册,获CC 2.0许可

3.3 结论

通过本章的讨论我们了解到人的视觉系统是一套卓越的感官机制,能够对周围的环境进行大范围的动态解释。本章探讨的人眼的很多能力都与本书的主题直接相关。比如,辐辏和调节过程对于设计完全沉浸式以及增强型头戴式显示装置有直接意义。理解视觉系统用于感知深度的各种信息线索对我们实际设计虚拟环境有很大的帮助。

在本书的后续部分我们会不时地引用本章的有关内容,那时我们便会理解为什么有必要了解主要视觉机制及其功能机制。我们鼓励虚拟和增强现实的爱好者和从业人员在掌握本章内容之后进一步充实这个领域的知识,比如深入研读本书附录A中所列的论文和其他资源。