426 0

Event-camera-based Dynamic Hand Gesture Recognition Using the Attentional ConvRNN for Low Latency

Title
Event-camera-based Dynamic Hand Gesture Recognition Using the Attentional ConvRNN for Low Latency
Author
신승혁
Alternative Author(s)
신승혁
Advisor(s)
김회율
Issue Date
2021. 2
Publisher
한양대학교
Degree
Doctor
Abstract
인간-기계 인터페이스를 위하여 배우기 쉽고 사람들이 일상 생활에서 주로 사용하는 제스처와 유사한 손 제스처가 주로 사용되고 있다. 이들 손 제스처는 두 종류로 나눌 수 있는데 하나는 정적 손 제스처, 다른 하나는 동적 손 제스처이다. 이 중 후자가 손 형태와 움직임의 조합으로 여러 제스처 표현을 해낼 수 있기에 인간-기계 인터페이스에 주로 사용된다. 이러한 손 동작을 촬영하기 위한 센서는 여러 종류가 있으며 이들 중 카메라는 상대적으로 저렴하고 사용자들에게 친화적인 장점을 지닌다. 이러한 장점을 활용하기 위해 많은 손 제스처 인식 연구들이 영상 전체를 촬영하는 그레이스케일 카메라 또는 RGB 카메라를 기반으로 수행되었다. 하지만 영상 전체 대신 이벤트를 획득하고 기록하는 이벤트 카메라의 등장으로 연구자들은 같은 시간 동안 기존의 카메라보다 더 많은 정보를 얻을 수 있게 되었다. 이벤트 카메라에서의 이벤트란 한 픽셀에서의 충분한 밝기 변화를 이미한다. 각 이벤트는 밝기의 상대적 변화, 이벤트 발생 픽셀의 좌표, 이벤트 발생 기간으로 구성된다. 프레임 기반의 이벤트 표현 방식과 비교할 때, 기존 카메라가 한 프레임 내의 모든 픽셀을 제공해야 할 때 이벤트 카메라는 이벤트 발생 픽셀만 제공하면 된다. 따라서 이벤트 카메라는 기존 카메라들보다 높은 프레임레이트를 가진다는 장점이 있다. 이벤트 카메라의 또 다른 장점은 이벤트의 발생 조건에서부터 온다. 대부분의 경우 밝기 차이는 물체와 배경의 차이로 인해 움직이는 물체의 경계에서 발생한다. 따라서 대부분의 이벤트는 움직이는 물체의 경계에서 발생하며 이들 이벤트는 물체의 대략적인 경계선으로 사용될 수 있다. 이벤트는 밝기의 상대적 변화 역시 제공하므로 물체의 대략적인 이동 방향 역시 추정할 수 있다. 이러한 장점들 덕에 저사양 하드웨어들이 이벤트 카메라와 함께 사용되어 고프레임의 데이터를 전송받아 처리하여 동적 손 제스처를 인식할 수 있게 되었다. 본 학위논문은 이벤트 카메라로 촬영한 동적 손 제스처를 저지연시간 내에 인식하는 방법을 제안한다. 획득한 이벤트는 2차원 영상으로 재구성된다. 일정 기간 내의 이벤트로부터 재구성된 영상은 공간적 특징을 추출하기 위하여 Convolutional neural network로 입력되며, 이의 출력은 시공간적 특징을 추출하기 위하여 Recurrent neural network로 입력된다. 추출된 시공간적 특징은 각 프레임마다의 중요도를 계산하기 위하여 Attention module로 입력된다. Attention module 뒤에 존재하는 Fully-connected layer는 가중치가 부여된 시공간적 특징에 기반하여 제스처를 인식한다. 제안한 방법의 성능 평가를 위하여 공개된 데이터셋을 사용하여 실험을 수행하고 동적 손 제스처 인식 성능과 인식에 소요되는 연산시간을 계산하였다. 실험 결과 제안한 방법은 타 방법들과 유사한 성능을 보이면서 더 적은 지연시간을 보였다. 따라서 제안하는 방법은 저사양 하드웨어가 사용되는 인간-기계 인터페이스에 적합하며, 제작사들이 더욱 저렴한 인간-기계 인터페이스를 만들 수 있는 기회를 제공한다.; For human-machine interfaces which are required by devices with many functions, hand gestures are widely used because they are easy to learn and similar to the gestures that humans daily use. Hand gestures can be categorized into two groups, static hand gestures and dynamic hand gestures, and latter ones are mostly used for human-machine interfaces because of the range of their gesture expression through the combination of the hand pose and movement. There are many sensors to capture dynamic hand gestures, and among these sensors, cameras have the advantages that relatively cheap and friendly to users. Exploiting these advantages, many studies for recognizing hand gestures have been conducted based-on grayscale or RGB camera which capture and record the entire images; however, the emerge of event cameras, which acquire and record events instead of images, has provided the researchers the opportunity to gain more information than conventional cameras in the same duration. In event cameras, an event is the sufficient brightness change in a single pixel. Each event comprises a relative brightness change, the coordinates of the event-occurred pixel, the event-occurred time. Compared to the frame-based event representation, event cameras have to provide only event pixels while conventional cameras must provide all pixels in a single frame. Thus, event cameras have the advantage of higher frame rates than conventional cameras. Another advantage of event cameras comes from the condition of an event. In most cases, brightness changes occur at the boundaries of moving objects because of the difference between the objects and background. Thus, most of events occur at the boundaries of a moving object and these events can serve as approximate edges of the object. As relative brightness changes are provided by events, the moving direction of the object can be also approximated. Thanks to these advantages, low-performance hardware with event cameras can be used to receive high-rate gesture data and process the data to recognize dynamic hand gestures. This dissertation proposes a low-latency recognition method for dynamic hand gestures captured by event cameras. Acquired events are reconstructed as two-dimensional images. The reconstructed images from events for a certain duration are fed to a convolutional neural network to extract spatial features and the extracted spatial features are fed to recurrent neural network and its outputs are used as spatio-temporal features. These spatio-temporal features are fed to an attention module to compute the significance of each frame. The fully-connected layer after the attention module recognizes the gesture based on the weighted spatio-temporal features. To evaluate the performance of the proposed method, experiments were conducted based on publicly-opened dataset. The experiment results showed that the proposed method showed similar recognition performance and lower latency, compared to other neural-network-based methods. Thus, the proposed method is feasible for human-machine interfaces with low-performance hardware and provides the opportunity to make relatively inexpensive human-machine interfaces for manufacturers.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/159359http://hanyang.dcollection.net/common/orgView/200000485522
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > ELECTRONICS AND COMPUTER ENGINEERING(전자컴퓨터통신공학과) > Theses (Ph.D.)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE