577 0

A Lightweight DCNN-based NIR Face Recognition System Robust to Eyeglasses Occlusion

Title
A Lightweight DCNN-based NIR Face Recognition System Robust to Eyeglasses Occlusion
Author
김제연
Alternative Author(s)
김제연
Advisor(s)
김회율
Issue Date
2021. 2
Publisher
한양대학교
Degree
Doctor
Abstract
얼굴인식 기술은 최근 수 년동안 다양한 어플리케이션에 적용되었으며 스마트 폰의 잠금 해제, 접근 통제의 목적으로 사용되었다. 특히, 얼굴인식 시스템에 딥러닝 기술이 접목되면서 인식 성능은 비약적으로 향상되었다. 이로 인하여 딥러닝 기반의 얼굴인식 연구는 활발히 수행되고 있으며 딥러닝 기반 얼굴인식 시스템을 상용화하려는 시도가 이루어지고 있다. 얼굴인식용 딥러닝 모델을 충분히 학습시키기 위해서는 대용량의 학습 데이터베이스가 필요하다. RGB 얼굴 영상의 경우 유명 인사의 영상을 인터넷에서 쉽게 획득할 수 있기 때문에 대량의 RGB 얼굴 데이터베이스를 구축하는 것이 가능하다. 이러한 데이터 취득의 용이성 때문에 딥러닝 기반의 얼굴인식 연구는 주로 RGB 영상을 이용하여 수행되었다. 그러나 RGB 얼굴인식의 경우 어두운 방이나 길거리와 같은 열악한 조명 환경에서는 인식 성능이 현저하게 하락하는 문제점이 존재한다. 근적외선 얼굴 영상은 별도의 조명 장비로 얼굴에 근적외선을 조사하여 획득되기 때문에 주변 조명 환경의 영향을 적게 받는다. 즉, 근적외선 얼굴 영상은 주변의 조명 환경이 변화여도 밝기 변화가 적다. 이러한 이유로 근적외선 얼굴인식은 RGB 얼굴인식 보다 열악한 조명환경에서 성능 적하가 적다. 또한, Suprema 사의 연구에 따르면 근적외선은 얼굴 색이나 톤에 따라 반사 특성이 달라지기 때문에 이를 이용하여 스푸핑 공격을 회피하는 것이 가능하다. 또한, 앞서 언급한 반사 특성으로 인하여 근적외선 기반 얼굴인식은 RGB 기반 얼굴인식에 비하여 스푸핑 공격에 강인한 장점이 있다. 이러한 근적외선 기반 얼굴인식의 장점으로 인하여 딥러닝 기반 근적외선 얼굴인식 연구가 활발히 수행되고 있다. 근적외선 엑티브 조명은 근적외선 얼굴인식기를 주변 조명 환경에 강인하게 하지만 안경 착용자의 얼굴 영상의 눈 주변에 반사광을 발생시킨다. 안경 착용자의 얼굴 영상에서는 반사광 뿐만 아니라 안경테에 의해서 눈 부분의 가려짐 현상이 발생한다. 그러므로, 동일한 사람의 안경 착용 및 미착용 얼굴 영상이 얼굴인식기로 입력되는 경우 안경 착용 영상에서의 안경 가려짐 현상으로 인하여 인식 성능이 하락하는 문제점이 존재한다. 근적외선 얼굴인식용 딥러닝 모델이 동일한 사람의 안경 착용 및 미착용 영상 쌍에 대하여 강인하도록 학습되기 위해서는 학습 데이터베이스 내의 각 얼굴 클래스에 비슷한 수의 안경 착용 및 미착용 영상이 존재해야 한다. 그러나 공용 근적외선 얼굴 데이터베이스 내의 각 클래스에서는 안경 착용 및 미착용 영상 수의 균형이 맞지 않는다. 이러한 데이터 불균형 문제는 근적외선 얼굴인식의 성능 향상을 위해서 해결되어야 한다. 또한, 최근 스마트 폰이나 임베디드와 같은 제한된 컴퓨팅 환경에 얼굴인식을 도입하려는 시도가 다수 존재하기 때문에 근적외선 얼굴인식기를 고속화할 필요성이 있다. 근적외선 얼굴인식기에서 입력 얼굴 영상으로부터 특징을 추출하는 딥러닝 모델의 연산량이 가장 많기 때문에 얼굴인식용 딥러닝 모델을 경량화시키는 것이 얼굴인식기를 고속화하는 가장 효과적인 방법이다. 그러나, 근적외선 얼굴인식용 딥러닝 모델을 경량화하는 연구가 거의 수행되지 않았다. 그러므로 근적외선 얼굴인식용 경량 딥러닝 모델을 설계할 필요성이 있다. 본 논문에서는 앞서 설명한 두 가지의 근적외선 얼굴인식의 문제점을 해결함으로써 효율적인 근적외선 얼굴인식 시스템을 제안한다. 먼저, 데이터 불균형 문제를 해결하기 위하여 CycleGAN 모델을 활용하여 가상의 안경 착용 및 미착용 영상을 생성하는 Eyeglasses2Non-eyeglasses bidirectional data augmentation을 수행하였다. 해당 데이터 증강 방법은 실제 안경 착용 및 미착용 영상에 해당하는 가상의 안경 미착용 및 착용 영상을 생성하여 학습 데이터베이스에 추가한다. 그러므로 증강된 데이터베이스의 각 클래스에는 거의 비슷한 수의 안경 착용 및 미착용 영상이 존재한다. 본 논문에서는 이 증강된 데이터베이스로 근적외선 얼굴인식용 딥러닝 모델을 학습하여 얼굴인식 성능을 상당히 향상시켰으며 해당 모델이 안경 가려짐에 강인한 것을 실험적으로 확인하였다. 다음으로 기존의 얼굴인식용 딥러닝 모델의 각 레이어의 역할 분석하여 해당 딥러닝 모델의 경량화 전략을 세웠으며 이를 기반으로 근적외선 얼굴인식용 경량 딥러닝 모델을 설계하였다. 레이어의 역할에 따라 딥러닝 모델의 하위 레이어에는 depthwise separable convolution을 적용하고 상위 레이어는 linear bottleneck을 도입하여 근적외선 얼굴인식용 경량 딥러닝 구조인 lightweight NIR FaceNet (LiNFNet) 을 설계하였다. 해당 딥러닝 구조는 얼굴인식에 필요한 연산량을 줄임과 동시에 인식 성능을 향상시켰다. LiNFNet보다 더 효율적인 딥러닝 구조를 설계하기 위하여 LiNFNet의 상위 레이어를 구성하는 linear bottleneck을 경량화시켰다. Linear bottleneck의 경량화 전략으로 pointwise convolution의 채널을 감소시켰으며 max pooling 연산을 도입하였다. 특히, 본 논문에서는 max pooling 연산과 depthwise convolution을 결합한 특징 융합기인 convolution and max pooling-based feature integration module (Conv-MaxPool FIM)을 제안하였으며 Conv-MaxPool FIM을 LiNFNet에 적용하여 efficient lightweight NIR FaceNet (E-LiNFNet) 구조를 설계하였다.; In recent years, RGB sensor-based face recognition (FR) has become widely utilized as a biometric in various applications, such as unlocking smartphones and access control systems. After the successful introduction of deep convolutional neural networks (DCNN) to computer vision problems, they have also been used to extract face presentations in most FR studies. However, the performance of DCNN-based RGB FR has been degraded under poor lighting conditions, such as dark rooms or streets. Since face images for FR based on a near-infrared (NIR) camera sensor are captured using an active light, the performance of NIR FR is less affected by the surrounding lighting conditions than that of RGB FR. According to Suprema Inc., real faces and fake faces for spoofing attack have different NIR light-reflective properties unlike visible light. Therefore, NIR FR is more robust to the spoofing attacks than RGB FR when the additional algorithms for anti-spoofing are not used. Due to the advantages of NIR FR, studies on DCNN-based NIR FR are being actively conducted. However, since the active NIR light is reflected off eyeglasses, reflected light is generated around the eye areas in NIR face images with eyeglasses. In addition to reflected light, eyeglasses frames also appear on the eye areas in the NIR face images. When an image pair including two NIR face images with and without eyeglasses is input to a NIR FR recognizer, the presence and absence of eyeglasses in the input pair is one of the main causes of performance degradation in NIR FR. Therefore, improving the NIR FR performance in this FR scenario is necessary. In addition to the performance degradation, there is another research direction to improve the performance of the NIR FR system. Since lightening the DCNN models for NIR FR has rarely been attempted in the existing studies, a lightweight DCNN architecture should be designed to extract powerful deep features for NIR FR. To alleviate the above-mentioned two problems, a lightweight DCNN-based NIR FR system robust to eyeglasses occlusion is proposed in this dissertation. The proposed NIR FR system achieved a performance improvement, while reducing the computational complexity of the DCNN architecture. There are three main contributions of the proposed system related to two advantages. In public NIR face databases, there are few face classes which simultaneously include face images of the same individual wearing and not wearing eyeglasses. This data imbalance problem degrades the accuracy of NIR FR due to eyeglasses occlusion. To solve the problem, we generated synthetic NIR face images with and without eyeglasses, and then constructed an augmented training database by adding the synthetic images to the public databases. The face classes in the augmented data augmentation had the similar numbers of images with and without eyeglasses. This data augmentation method is one of our contributions, and it was named Eyeglasses2Non-eyeglasses (E2NE) bidirectional data augmentation. As the other two contributions, two lightweight DCNN architectures called Lightweight NIR FaceNet (LiNFNet) and Efficient Lightweight NIR FaceNet (E-LiNFNet) were designed. The LiNFNet architecture was constructed by adapting depthwise separable convolutions and linear bottlenecks to VGGNet 16. Moreover, the E-LiNFNet architecture was designed by reducing the number of filters in the pointwise convolutions of LiNFNet and replacing the depthwise convolutions of LiNFNet with max pooling operations. Especially, Convolution and max pooling-based feature integration module (Conv-MaxPool FIM) was proposed in the E-LiNFNet architecture by integrating the depthwise convolution and max pooling operation, and the lightweight module efficiently reduced the number of computations of LiNFNet while improving the NIR FR accuracy. From the experimental results of this study, the proposed NIR FR system achieved validation and identification rates of $99.09\%$ and $100\%$, respectively. By adapting LiNFNet or E-LiNFNet to the proposed system, the number of the computations required for NIR FR was reduced by over a half. It was experimentally shown that the proposed system had a better balance between the NIR FR accuracy and speed than existing NIR FR methods.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/159145http://hanyang.dcollection.net/common/orgView/200000485338
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > DEPARTMENT OF ELECTRONIC ENGINEERING(융합전자공학과) > Theses (Ph.D.)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE