- 人工智能:人脸识别与搜索
- 张重生
- 1951字
- 2021-03-31 21:20:23
1.3 常用数据集介绍
人脸检测、人脸识别和人脸关键点定位算法都需要在大量的人脸数据集上进行模型训练和实验验证。本节分别对常用的人脸检测、人脸识别、人脸关键点定位的数据集进行介绍。
1.3.1 人脸检测数据集
当前最常用的人脸检测数据集是FDDB 和WIDER Face。
FDDB(Face Detection Data Set and Benchmark)数据集[3]是由Vidit等人[4]收集整理的,现由美国马萨诸塞大学阿姆特分校维护。构建该数据集的目的是为人脸检测算法提供一个数据集,并且在该平台上公平地评估不同人脸检测算法的效果。该数据集中共有28736张人脸图像,其中包含5171个人脸的2845张图像来自数据集Faces in the Wild[5],此外该数据集还对图像中的人脸区域提供了准确的椭圆形的注解框。FDDB中包含的人脸图像有不同姿势的、遮挡的、低分辨率的,甚至有失焦的;既有彩色图像,也有灰度图像。图1-3所示为一些FDDB 数据集中的图像。FDDB 是世界上最权威的人脸检测评估平台之一,它公布了大量算法评估结果的ROC 曲线,如图1-4所示。FDDB 数据集主要用于人脸图像检测。
图1-3 FDDB 数据集中的图像示例
图1-4 不同人脸检测算法在FDDB 数据集上检测准确度的ROC 曲线[3](示意图)
WIDER FACE 数据集[6]由香港中文大学汤晓鸥教授团队构建,包括32203张图像和393703个标注的人脸,这些人脸在尺寸、姿态、光照上有较大的差异。该数据集是当前人脸检测研究最常用的数据集之一。
1.3.2 人脸识别数据集
当前人脸识别常用的数据集主要有LFW、MegaFace、WIDER Face、CASIA-WebFace、MS-Celeb-1M 和VGG Face 2。
LFW(Labeled Faces in the Wild)数据集[7]是由美国马萨诸塞大学阿姆特分校收集整理并维护的,是为了在不受限制的环境下研究人脸识别问题而设计的[8]。该数据集中有13233张图像,这些图像均从网上收集而来,得到这些原始图像后,经过处理,最后数据集中每张图像的尺寸都是250像素×250像素,并且每张图像以图像中人物的名字命名,不同人的图像放在不同的文件夹中。该数据集一共有5749个文件夹,即5749个人。其中,4069个人只有一张图像,另外1680个人有多张图像。如lfw\Aaron_Peirsol 中有4张图像,命名形式如图1-5所示。LFW数据集可用于人脸识别和人脸检索。
MegaFace 数据集[9]由华盛顿大学从Flickr 上收集,包含100万张图像,共计69万个不同的人。它是世界上第一个百万规模的人脸识别基准测试集[10]。
图1-5 LFW 中Aaron_Peirsol 文件夹下的图像
WIDER Face 数据集[11]发布于2015年,包括32203张图像和393703个人脸,比FDDB 数据集大10倍[10]。
CASIA-WebFace 数据集[12]发布于2014年,包含10575个人,共计494414张图像。
MS-Celeb-1M 数据集[13]由微软发布于2016年,包含10万个人的1000万张图像,可用于人脸检测和人脸识别。
VGG Face2数据集[14]发布于2017年,包含9131个人、330万张图像,覆盖了大范围的姿态、年龄和种族。除身份信息外,数据集还标注了人脸框、5个人脸关键点、年龄和姿态[10]。
1.3.3 人脸关键点定位数据集
人脸关键点定位研究常用的数据集有BioID、AFLW、LFPW 和AFW数据集。
BioID 数据集[15]包含23个人,共计1521张灰度图像(尺寸为384像素×286像素),每张图像使用20个人脸关键点进行标注。
AFLW(Annotated Facial Landmarks in the Wild)数据集[16]包含25993张图像,每张图像用21个人脸关键点进行标注。
LFPW(Labeled Face Parts in the Wild)数据集[17]包括1400张人脸图像,这些图像通过搜索引擎检索的方式获得。
AFW(Annotated Faces in the Wild)数据集[18]来自Flicker,包括205张图像(473个人脸),这些图像中的人脸尺寸、姿态多样,背景复杂。每个人脸的区域使用矩形框标定,脸部使用6个人脸关键点标注。
1.3.4 其他数据集
本书构建了两个小规模的数据集wanwan1和wanwan2。
wanwan1数据集中包含100张侧脸图像,这些图像均来自互联网。这些图像尺寸大小不一,场景复杂。最重要的是,这些图像中的人脸均为侧脸。图1-6呈现了数据集wanwan1中的一些图像。
图1-6 数据集wanwan1中的图像
wanwan2数据集中包含100张多角度(甚至是360°)的人脸图像,图1-7呈现了数据集wanwan2中的一些图像。有360°人脸,如图1-7(a)所示;有90°的人脸图像,如图1-7(b)所示。
图1-7 数据集wanwan2的示例图像
笔者及其团队在侧脸检测研究方面,采集、构造了一个较大规模的、专门的侧脸图像数据集(上述两个小数据集仅是其中一部分)。我们利用该数据集,开展了侧脸检测的研究,最终发现了一个重要结论:进行侧脸检测时,如果能够使用耳朵图像信息,则侧脸检测算法的准确率能够得到明显提升。相关成果发表在国内的权威期刊《电子学报》上[19]。这一灵感来源于笔者在生活中的思考和观察:在生活中,通过侧脸识别一个人时,人类会有意无意地观察、利用其耳朵特征。事实上,耳朵本身已经是一种非常有区分性的生物特征。在侧脸图像中,耳朵图像却是非常正向(正面),且完整、明显的。由于不同人的耳朵图像往往不同,因此耳朵图像信息应该有助于对侧脸图像的识别。基于生活中的常识和观察,我们将其带入侧脸检测问题中,开展了大量的对比实验,最终发现/揭示了一个重要事实:侧脸检测算法若利用了耳朵图像信息,则能够显著提高侧脸检测的准确率!这一发现具有较高的价值和现实意义,对今后侧脸检测和侧脸识别的研究具有一定的指导意义。只是耳朵图像有时因头发、帽子的原因会被遮挡,并非总是可用。