TY - THES AU - 최준영 DA - 2015/02 PY - 2015 UR - https://repository.hanyang.ac.kr/handle/20.500.11754/128668 UR - http://hanyang.dcollection.net/common/orgView/200000426085 AB - This dissertation proposes hand pose tracking methods for natural interface in the mobile devices. While various mobile devices have been recently popularized and their performance has been upgraded, the user interfaces have no changes such as button touch and voice recognition. The interface developers are interested in the user-friendly interfaces for interacting with mobile devices. Especially, the hand gesture-based interfaces using hand movements receive much attention since the hand gestures enable the natural interactions and various functions without additional input tools. In order to design the hand gesture-based interfaces, it is necessary to recognize and track the hand poses and movements in real-time. And some effective and simple features are required to model hand poses in the usual mobile devices which have only a single RGB camera and general purpose CPU unlike GPU. This dissertation focuses on the hand pose tracking only for RGB camera and CPU operation, which aims at the natural interfaces in the usual mobile devices. This dissertation proposes two tracking methods, one is based on the 2D image features such as histogram of oriented gradients (HOG) and principal components, and the other is based on a 3D regenerative hand model. The first method for hand pose tracking exploits HOG features and principal components in the hand regions. After the hand region is extracted from skin color model, the center of hand region is estimated by distance transform and HOG feature in the hand region is extracted. Also, some of most similar hand images are detected by comparing the current hand region with pre-trained principal components of hand images. The palm pose of current hand region is first estimated by using both the HOG feature and palm pose information of the most similar hand images. Then the hand image is warped to make the palm plane perpendicular to the optical axis. The hand pose is finally estimated by measuring the lengths of fingers. In this dissertation, the hand poses can be more accurately tracked by first estimating palm poses. The proposed method discriminates the different 3D poses which look very similar in the 2D camera images. According to the experiments with various hand poses, the proposed 2D feature-based method recognizes and tracks the hand poses very well in real-time. The proposed method does not use GPU programming, thus it is very suitable for mobile devices. This dissertation also has designed and implemented various user interfaces using hand poses in the real mobile device. The results prove that the proposed 2D feature-based method is useful for natural hand interface in the usual mobile devices. The second method for hand pose tracking uses a regenerative 3D hand model. The proposed method has three steps to track the hand poses. First, the palm pose of a user’s hand is estimated by variously transforming the palm pose of the 3D hand model and comparing them with contour of a hand region extracted by skin color model. In the second step, yaw angles of fingers (the angles of the normal axis of the palm plane) are estimated from the finger skeletons derived by distance transform. And the final third step estimates the pitch angles of fingers (the angles of the axis orthogonal to both finger direction and the normal axis of the palm plane) by the contour shape of fingers. This dissertation models the 3D hand shape with 21-DOF parametric space. In addition, the 3D hand model is changed to be fit to the user’s hand shape. The regenerative 3D hand model in the 21-DOF and three steps approach improve the accuracy and tracking speed simultaneously. The 3D hand model method is more robust to the self-occlusion problems, and outperforms the proposed 2D feature-based method. This dissertation has proposed two hand pose tracking methods, one exploits HOG feature and principal components, and the other uses the 3D regenerative hand model. The proposed methods have been implemented in various platform including the usual mobile devices in order to show the effectiveness of proposed tracking methods. The proposed methods have been proved to be suitable for the mobile devices, since two methods are based on a monocular RGB camera and operate in real-time without specific hardware like GPU. It is expected that the proposed methods for hand pose tracking are applicable to various device platforms for natural interface designs. |본 논문에서는 모바일 기기에서 자연스러운 인터페이스를 위하여 손의 자세와 동작을 실시간으로 추정하는 방법을 제안한다. 최근에 다양한 모바일 기기가 보급되고 그 성능은 꾸준히 발전하고 있지만, 이를 다루기 위한 사용자 인터페이스는 버튼 터치나 간단한 음성 인식과 같이 거의 변화가 없다. 이에 따라 인터페이스 설계 전문가들은 모바일 기기를 위한 사용자 친화적 인터페이스 개발에 많은 관심을 가지고 있다. 특히 손을 활용한 인터페이스는 별다른 도구 없이 자연스러운 상호작용을 가능하게 하고, 보다 다양한 기능을 설계하는데 유용할 것으로 기대되어 많은 주목을 받고 있다. 손을 활용한 자연스러운 상호작용과 인터페이스를 구현하기 위해서는 정확하게 손의 자세를 추정하고 실시간으로 손동작을 추적하는 기술이 필요하다. 일반적으로 모바일 장비에서는 깊이 카메라나 고성능의 GPU 장치를 장착하는 것이 어렵기 때문에, 정확성과 실시간 추정을 수행하기 위해서는 적절한 특징과 모델을 이용한 효율적인 방법이 요구된다. 본 논문에서는 단안 RGB 카메라를 사용하고, GPU 기반 연산을 요구하지 않는 손자세 추적 방법에 초점을 맞추고 있다. 이를 통하여 모바일 기기를 포함한 다양한 플랫폼에서 실시간으로 정확하게 손의 자세와 동작을 인식하고, 자연스러운 상호작용을 수행할 수 있다. 본 논문에서는 2차원 영상에서의 특징을 이용하는 방법과 3차원 손모델을 이용하는 방법으로 두 가지 손자세 추적 방법을 제안하고 있다. 제안하는 첫 번째 방법에서는 피부색 정보로부터 추출된 2차원 손 영상의 histogram of oriented gradients (HOG) 특징과 손동작 영상에 대한 주성분 분석기법을 결합하여 손자세를 추적한다. 우선 피부색 정보로부터 손의 후보영역을 검출하면, 거리변환을 통하여 손의 중심을 추정하고 정규화된 손 영역에 대하여 HOG 특징을 추출한다. 또한 사전에 학습을 통하여 설계한 손 영상에 대한 주성분 영상으로부터 현재 손의 자세와 가장 유사한 소수의 손 영상을 추출한다. HOG 특징과 주성분의 유사도를 결합하여 가장 확률이 높은 손바닥 자세를 추정한다. 추정된 손바닥 자세정보를 기반으로 손바닥이 카메라 광축과 수직이 되도록 손 영상을 변환한 다음, 변환된 손 영상으로부터 개별 손가락의 길이를 측정하여 손의 자세가 인식된다. 본 논문에서는 우선 손바닥 자세를 인식함으로써, 실제 3차원 손의 형태는 다르지만 2차원 카메라 영상으로는 유사하게 보이는 다양한 손의 자세들을 분별할 수 있다. 다양한 동작에 대한 실험을 통하여 본 논문에서 제안하는 2차원 특징기반 손동작 추적 기술은 기존의 방법들과 비교하여 더 정확하고 안정적으로 손의 자세를 추적한다. 또한, 병렬처리를 위한 연산장치가 없이도 실시간으로 손의 자세를 추적할 수 있기 때문에, 일반적인 모바일 환경에서도 매우 적합하다. 그리고 제안하는 방법의 유용성을 입증하기 위하여, 본 논문은 2차원 특징 정보 기반 손자세 추적방법을 모바일 환경에 맞춰 최적화하고 다양한 손자세 기반 인터페이스를 구현한다. 실시간으로 추적되는 손의 자세에 따라 3차원 가상 콘텐츠를 사용자의 손바닥 위에서 증강시키거나 다양하게 콘텐츠와 상호작용할 수 있도록 인터페이스를 설계한다. 이를 통하여 본 논문에서 제안하는 손자세 추적 기법은 실제 모바일 기기에서 유용하게 사용될 수 있음을 확인한다. 제안하는 두 번째 방법에서는 3차원 손 모델을 설계하여 손의 자세와 동작을 추적한다. 3차원 모델 기반 방법은 3가지 단계를 거쳐서 손의 자세를 추적한다. 우선 피부색 정보에서 추출된 손 영역을 기준으로 3차원 손모델을 다양하게 변화시키면서 최적으로 정합되는 손바닥의 자세를 추정한다. 다음에는 각 손가락 부분에 대하여 거리변환 정보를 이용하여 손가락의 중심골격을 추출하고, 중심골격으로부터 손가락의 yaw (손바닥 평면과 수직방향) 축으로 회전 각도를 추정한다. 끝으로 3차원 손모델의 각 손가락 부분을 pitch (손바닥 평면에서 나란하게 놓인 네 손가락의 방향과 수직 방향) 축으로 회전시키면서 영상평면에 투영하여 최적으로 정합되는 pitch 회전 각도를 추정한다. 이러한 3단계 추정 과정을 통하여 정확한 손의 자세를 인식할 수 있으며, 연속된 프레임간 상관성을 이용하여 손의 자세를 추적할 수 있다. 본 논문에서는 총 21-DOF 와 3단계 추적과정을 통하여 기존 26-DOF 방식들보다 고속으로 손의 자세를 추적할 수 있다. 또한, 사용자의 손의 크기 및 형태에 맞게 3차원 손모델을 재생 및 변형하여 정합함으로써, 사용자의 손 모양에 적응적으로 최적화되어 사용자에 따라 추인식 및 추적률이 저하되는 문제가 발생하지 않는다. 본 논문에서 제안한 3차원 손모델 기반 손자세 추적 기법은 2차원 특징 기반 방법에 비해서 자가 가려짐에 더 안정적인 성능을 보여준다. 제안하는 방법은 3단계 추적 과정을 통하여 손자세 추적의 오류와 연산량을 동시에 감소시킨다. 본 논문에서는 2차원 영상특징 기반 방식과 3차원 손모델 기반 방식의 두 가지 손자세 추적 기법을 제안하고 실제 모바일 기기에서 인터페이스를 구현하여 그 효용성을 검증하였다. 제안하는 두 기법은 단안 RGB 카메라만을 사용하고 GPU 장치나 깊이 카메라를 이용하지 않으면서도 효율적인 연산과 적절한 특징 모델을 통하여 정확하게 손자세를 추적하고 실시간으로 동작이 가능하다. 제안하는 손자세 추적 기법은 모바일 기기를 포함한 다양한 플랫폼에서 카메라 영상만으로 사용자 인터페이스와 상호작용을 설계하고는 데 널리 사용될 수 있을 것으로 기대된다.; This dissertation proposes hand pose tracking methods for natural interface in the mobile devices. While various mobile devices have been recently popularized and their performance has been upgraded, the user interfaces have no changes such as button touch and voice recognition. The interface developers are interested in the user-friendly interfaces for interacting with mobile devices. Especially, the hand gesture-based interfaces using hand movements receive much attention since the hand gestures enable the natural interactions and various functions without additional input tools. In order to design the hand gesture-based interfaces, it is necessary to recognize and track the hand poses and movements in real-time. And some effective and simple features are required to model hand poses in the usual mobile devices which have only a single RGB camera and general purpose CPU unlike GPU. This dissertation focuses on the hand pose tracking only for RGB camera and CPU operation, which aims at the natural interfaces in the usual mobile devices. This dissertation proposes two tracking methods, one is based on the 2D image features such as histogram of oriented gradients (HOG) and principal components, and the other is based on a 3D regenerative hand model. The first method for hand pose tracking exploits HOG features and principal components in the hand regions. After the hand region is extracted from skin color model, the center of hand region is estimated by distance transform and HOG feature in the hand region is extracted. Also, some of most similar hand images are detected by comparing the current hand region with pre-trained principal components of hand images. The palm pose of current hand region is first estimated by using both the HOG feature and palm pose information of the most similar hand images. Then the hand image is warped to make the palm plane perpendicular to the optical axis. The hand pose is finally estimated by measuring the lengths of fingers. In this dissertation, the hand poses can be more accurately tracked by first estimating palm poses. The proposed method discriminates the different 3D poses which look very similar in the 2D camera images. According to the experiments with various hand poses, the proposed 2D feature-based method recognizes and tracks the hand poses very well in real-time. The proposed method does not use GPU programming, thus it is very suitable for mobile devices. This dissertation also has designed and implemented various user interfaces using hand poses in the real mobile device. The results prove that the proposed 2D feature-based method is useful for natural hand interface in the usual mobile devices. The second method for hand pose tracking uses a regenerative 3D hand model. The proposed method has three steps to track the hand poses. First, the palm pose of a user’s hand is estimated by variously transforming the palm pose of the 3D hand model and comparing them with contour of a hand region extracted by skin color model. In the second step, yaw angles of fingers (the angles of the normal axis of the palm plane) are estimated from the finger skeletons derived by distance transform. And the final third step estimates the pitch angles of fingers (the angles of the axis orthogonal to both finger direction and the normal axis of the palm plane) by the contour shape of fingers. This dissertation models the 3D hand shape with 21-DOF parametric space. In addition, the 3D hand model is changed to be fit to the user’s hand shape. The regenerative 3D hand model in the 21-DOF and three steps approach improve the accuracy and tracking speed simultaneously. The 3D hand model method is more robust to the self-occlusion problems, and outperforms the proposed 2D feature-based method. This dissertation has proposed two hand pose tracking methods, one exploits HOG feature and principal components, and the other uses the 3D regenerative hand model. The proposed methods have been implemented in various platform including the usual mobile devices in order to show the effectiveness of proposed tracking methods. The proposed methods have been proved to be suitable for the mobile devices, since two methods are based on a monocular RGB camera and operate in real-time without specific hardware like GPU. It is expected that the proposed methods for hand pose tracking are applicable to various device platforms for natural interface designs. PB - 한양대학교 TI - 단안 RGB 카메라를 이용한 실시간 손 추적 TT - Real-time Hand Tracking Using a Monocular RGB Camera TA - Choi, Junyeong ER -