200 0

모션 선택적 비전 트랜스포머 네트워크를 사용한 순방향 워핑 기반의 비디오 프레임 보간

Title
모션 선택적 비전 트랜스포머 네트워크를 사용한 순방향 워핑 기반의 비디오 프레임 보간
Other Titles
Forward Warping-based Video Frame Interpolation Using a Motion Selective Vision Transformer Network
Author
허정환
Alternative Author(s)
Jeonghwan Heo
Advisor(s)
윤기중
Issue Date
2023. 8
Publisher
한양대학교
Degree
Doctor
Abstract
영상 분야에서 convolutional neural network (CNN)이 활용된 이래로 딥 뉴럴 네트워크는 급격한 발전을 이룸과 동시에 대부분의 전통적인 영상처리 문제들을 해결하는데 주목할만한 성능을 보여주고 있다. 비디오 프레임 보간 분야에서도 예외 없이 딥 뉴럴 네트워크를 활용하는 전환이 진행되고 있다. 하지만 비디오 프레임 보간 분야는 다른 영상처리 분야와는 달리 공간적-시간적 도메인의 넓은 데이터를 다뤄야 하는 만큼, 메모리와 컴퓨팅 비용에 방대한 부담이 존재한다. 두 프레임 사이의 특정 위치에서 새로운 보간 값을 얻으려면 양쪽 프레임 픽셀들의 공간적인 움직임 해석이 필요하며 이러한 움직임의 가능성을 바탕으로 좌, 우 프레임의 비중을 반영해야 하는 복합적인 문제이기 때문에 하나의 딥러닝 모델로 좋은 성능을 보이기 어려웠다. 이와 같은 이유로 최근 대부분의 비디오 프레임 보간 연구에서는 움직임을 구하기 위한 네트워크와 보간 프레임을 생성하기 위해 두 종류의 딥 네트워크를 함께 사용하는 방법을 채용하고 있다. 첫 번째 딥 네트워크는 프레임간의 움직임을 출력하도록 학습한다. 두 번째 네트워크는 추정된 움직을 통해 각 픽셀을 이동시킬 때, 워핑 (warping) 오류가 적도록 추정된 움직임의 refine을 출력하도록 학습한다. 픽셀을 이동시켜 이미지를 생성하는 방법에는 주로 역방향 워핑 (backward warping) 방법을 사용하는데 역방향 워핑은 두 물체가 교차하는 지점에서 보간 이미지를 온전히 생성할 수 없는 문제가 존재한다. 생성된 보간 이미지가 혼합되고 흐려지는 결함을 만들어내기 때문에 딥 네트워크가 물체 학습과 인식에 어려움을 겪는다. 이 때문에 네트워크의 잠재 (latent) 벡터 해석을 고려한 구조의 설계가 이루어질 수 있도록 네트워크 설계에 주의를 기울여야 한다. 본 학위논문에서는 순방향 워핑 (forward warping)을 통해 물체가 흐려지는 결함이 보완된 보간 프레임을 생성하는 방법을 제안한다. 순방향 워핑을 사용하면 비디오의 물체가 교차하는 등의 복잡한 장면에서 발생하는 혼합된 움직임 결함을 완화할 수 있다. 순방향 워핑 사용 시에는 홀 (hole)과 중첩 (overlap) 영역이 발생할 수 있는데, 홀에 대해 문맥에 적절한 이미지를 보간 하거나, 중첩 영역 중 적절한 이미지를 선택할 수 있도록 딥 네트워크를 설계하였다. 제안하는 움직임 선택적 네트워크 (motion selective network)는 홀 보간과 중첩 영역 선택하도록 학습되며 순방향 워핑을 수행한 이후의 프레임 후보를 입력으로 사용하도록 설계되었다. 순방향 워핑을 진행할 때, 움직임 벡터 크기 비교를 통해 움직임 벡터가 큰 크기의 움직임을 우선하여 워핑 하거나 작은 움직임에 우선해 워핑하는 방법을 각각 순방향 최대 (forward max) 워핑, 순방향 최소 (forward min) 워핑으로 이름 지었다. 본 학위논문의 기여하는 바는 다음과 같다. 첫째로 제안하는 최대-최소 (max-min) 워핑 방법을 CUDA C로 구현하여 네트워크의 학습이 효율적으로 이루어질 수 있도록 하였다. 둘째로 워핑 결과물을 적절히 선택하기 위한 어텐션 네트워크를 설계하였고 네트워크가 입력 벡터에 대한 어떠한 집중을 보이는지 분석하였다. 셋째로 비디오 프레임 보간 분야에서 사용되는 워핑 함수들과 딥 네트워크를 활용한 보간 기법들을 소개하고 성능향상의 핵심과 정규화 방법, 상세 연산에 대해 논의하였다. 제안하는 워핑 방법은 순방향 최대 워핑 결과와 순방향 최소 워핑 결과의 몇 가지 움직임 후보군에 대해 딥 네트워크가 문맥적으로 적절한 이미지를 선택한다. 제안된 Motion Selective Network를 사용한 비디오 보간 방법은 Vimeo90k 데이터셋에서 35.74 dB의 PSNR를 보였고, Quadratic Video Interpolation 방법과 비교하여 1.27 dB 만큼의 PSNR향상을 이루었다.
URI
http://hanyang.dcollection.net/common/orgView/200000685555https://repository.hanyang.ac.kr/handle/20.500.11754/186992
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > DEPARTMENT OF ELECTRONIC ENGINEERING(융합전자공학과) > Theses (Ph.D.)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE