462 0

영상 내 시간적 흐름을 활용한 모델 독립적 키포인트 보정 방법

Title
영상 내 시간적 흐름을 활용한 모델 독립적 키포인트 보정 방법
Other Titles
A Model-agnostic Key-point Refinement Method using Temporal Flow of Video
Author
김범진
Advisor(s)
조 인 휘
Issue Date
2022. 2
Publisher
한양대학교
Degree
Master
Abstract
최근 컴퓨터 비전 분야 어플리케이션은 딥러닝 기반의 키포인트 인식 기술을 적용하여 사람, 동물 등 이미지 내의 객체의 부위를 식별하고, 움직임을 인식하는 등 다양한 기능을 제공하고 있다. 키포인트 인식 기술은 딥러닝의 발전 이후 그 성능이 눈이 띄게 발전했으나 현재 대부분의 딥러닝 기반 키포인트 인식 기술은 이미지 단위로 키포인트의 위치를 추론한다. 그렇기 때문에 키포인트 인식 기술을 영상에 적용할 경우 영상 내 객체의 시간의 흐름에 따른 움직임을 고려하지 못하고 이미지 단위로 시간적 흐름과 무관한 예측결과로 인해 키포인트 인식 모델의 예측 결과와 실제 사람이 인식하는 것 사이에 괴리가 발생하는 문제가 있다. 따라서 영상에서 객체 움직임의 시간적 흐름에 따라 자연스러운 키포인트의 위치를 추론하기 위해서는 연속되는 프레임에서 객체 움직임에 대한 시간적 정보를 고려하는 것이 필요하다. 본 연구에서는 이 문제를 해결하기 위해 칼만필터와 TMS(Temporal Midpoint Selection)알고리즘을 이용하여 입력 영상에 대해 키포인트 인식 모델이 예측한 프레임별 키포인트 정보를 기반으로 영상 내 키포인트를 보정하는 방법을 제안한다. 구체적으로 TMS 알고리즘은, 먼저 연속된 3개의 프레임 I_(t-1)와 I_t그리고 I_(t+1)에 대해 키포인트 인식 모델이 예측한 키포인트 좌표값을 기반으로 가운데 프레임인 I_t에 대한 시간적 흐름을 반영한 키포인트 좌표값을 칼만필터를 통해 예측한다. 그리고 키포인트 인식모델이 예측한 기존의 키포인트 좌표값과, 칼만필터를 통해 예측한 키포인트 좌표값 중 프레임 I_(t-1)과 I_(t+1)의 키포인트 좌표값을 통해 얻을 수 있는 키포인트 움직임 벡터와 비교하여 시간적 흐름에 따라 해당 움직임 사이에 더 적합하다고 판단되는 중간 프레임의 키포인트 좌표값을 선택한다. 특히 제안하는 방법은 모델 독립적(Model-agnostic) 방법으로 타 포즈 인식 모델의 최종 출력값을 기반으로 하기 때문에 모델 파이프라인에 포함되는 보정방법들과 달리 기존 키포인트 예측 모델의 파이프라인에 대한 이해가 필요없이 다양한 키포인트 예측 모델의 일반적인 후처리 과정에 쉽게 적용할 수 있다는 장점이 있다. 본 연구에서 제안하는 보정 방법은 영상 내 키포인트 예측 과제에서 AI Hub 수어영상 데이터셋에 대해 최고성능을 보이는 기존 키포인트 인식 모델의 인식 결과에 적용 시 영상에 대한 인식 성능을 향상시키는 결과를 보여준다. 평가를 위한 지표는 정밀도(Precision)와 재현율(Recall)을 통해 산출한 AP(Average Precision)를 사용하였으며, 평가를 위해 사용한 수어영상 데이터 셋 내 가장 움직임이 많은 손 관절 키포인트에 대해 실험하였다. 평가 결과 칼만필터와 TMS 알고리즘을 활용한 영상 내 시간적 흐름을 활용한 키포인트 보정 방법은 손목, 엄지, 검지, 중지, 약지, 새끼 모든 부위에서 일관성있게 AP를 향상시키는 모습을 보였다. |Recently, computer vision applications have applied deep-learning based keypoint recognition technology to provide various functions such as joint detection and recognizing pose in image. Development of deep-learning improve the performance of Keypoint recognition remarkably, but most deep-learning based keypoint recognition technologies infer the location of keypoints using the information of only one image. Therefore, when keypoint recognition technology is applied to video frames, there is a gap between the prediction results of the keypoint recognition model and those recognized by person due to prediction results of model irrelevant to time flow. Therefore, in order to infer the position of the keypoint according to the temporal object movement in the video, it is necessary to consider temporal flow in continuous frames. To solve this problem, this study proposes a keypoint refinement method in a video using a Kalman filter and a Temporal Midpoint Selection (TMS) algorithm based on keypoint information from each frame that was predicted by the keypoint recognition model for an input video. To describe TMS algorithm, for three consecutive frames I_(t-1), I_t, and I_(t+1), the algorithm predicts keypoint reflecting the temporal flow for the middle frame I_t based on keypoint predicted by recognition model for frame I_(t-1), I_(t+1). Then, for the frame I_t, choose an appropriate one among the keypoint predicted by recognition model and the keypoint that can be obtained through the filter according to the temporal flow. In particular, the proposed model-agnostic method is based on the output of other pose recognition model, so unlike the refinement methods included in the model pipeline, it can be easily applied to post-processing step of various key point prediction models without understanding the pipeline. The refinement method proposed in this study improves the recognition performance in video when applied to the recognition results of keypoint recognition models that shows the highest performance for AI Hub sign language video datasets. The evaluation metric is AP (Average Precision) calculated through precision and recall, and experimented on the hand joint keypoints in the sign language video dataset. As a result of the evaluation, the keypoint refinement method using the Kalman filter and TMS algorithm consistently improved AP in all hand part of the wrist, thumb, index finger, middle finger, ring finger, and pinky.
URI
http://hanyang.dcollection.net/common/orgView/200000595715https://repository.hanyang.ac.kr/handle/20.500.11754/168389
Appears in Collections:
GRADUATE SCHOOL OF ENGINEERING[S](공학대학원) > ELECTRICAL ENGINEERING AND COMPUTER SCIENCE(전기ㆍ전자ㆍ컴퓨터공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE