387 0

Effective Temporal Information Propagation Methods for Video Super Resolution

Title
Effective Temporal Information Propagation Methods for Video Super Resolution
Author
위승우
Alternative Author(s)
위승우
Advisor(s)
정제창
Issue Date
2022. 2
Publisher
한양대학교
Degree
Doctor
Abstract
디지털 영상의 해상도는 영상 품질의 가장 기본적인 요소로 디지털 카메라로부터 샘플링 과정을 거쳐 생성되는 픽셀의 수에 의해 디지털 영상의 초기 해상도가 결정된다. 이 영상 데이터의 해상도는 디지털 카메라의 이미지 센서의 발전을 통해 향상되어 왔으며 영상 출력을 위한 디스플레이 기기도 마찬가지로 지속적인 발전을 통해 다양한 해상도의 디스플레이가 보급되었다. 이에 따라 필연적으로 영상 데이터와 출력 장치 간의 해상도가 상이한 경우가 발생하기 때문에 영상 데이터의 다운/업 샘플링 과정이 활용되고 있다. 특히, 영상 데이터의 해상도가 출력 장치의 해상도보다 낮을 경우, 영상 품질 저하를 줄이기 위한 영상 업 샘플링에 대한 연구가 활발하게 진행되고 있다. 이 과정은 영상 보간 기술로 더 높은 해상도의 디지털 영상을 생성하는 것을 일컬으며 관심 영역의 확대 등 다양한 영상처리 응용 분야에서 활용되고 있다. 자연 영상에서 에지 (edge) 영역은 평평한 영역보다 많은 정보를 담고 있기 때문에 고주파 성분을 복원하는 것은 초해상도 연구에서 핵심적인 부분이다. 그러나, 한 번 디지털 신호로 샘플링 되어 저장된 영상 데이터는 특정 주파수 이상의 정보가 손실되기 때문에 이를 복원하는 것은 매우 어려운 일이다. 또한, 초해상도 연구는 고유한 해법이 존재하지 않아 인공지능 분야에서도 오랜 기간동안 도전적인 문제로 여겨지고 있다. 최근, GPU 성능 발전과 함께 방대한 양의 실제 영상 데이터셋이 구축됨에 따라 영상 초해상도를 위한 딥러닝 기반의 기법들이 많이 제안되고 있다. 일반적으로, 단일 영상 초해상도 기법들은 프레임 내 공간적인 정보만을 활용하는 반면, 동영상 초해상도 기법들은 프레임 내의 공간적인 정보와 인접한 여러 프레임들 간의 시간적인 정보도 함께 활용할 수 있다. 최근에 제안되는 동영상 초해상도 모델들은 대부분 다중 프레임을 통한 시간적인 정보를 이용하는 구조로 이루어져 있으며 초해상도 대상의 프레임을 기준으로 주변 프레임들을 정렬(alignment)하는 기법들도 제안되었다. 본 학위 논문에서는 딥러닝 기반의 동영상 초해상도 기법에 대해 다루며 인접 프레임 간의 시간적인 정보를 효율적으로 추출하여 전파하기 위해 순환 신경망 (Recurrent Neural Network, RNN)과 장단기 메모리 (Long Short-Term Memory, LSTM)의 기본 구조를 기반으로 합성곱 신경망 (Convolutional Neural Network, CNN)과 채널 어텐션 (Channel Attention, CA)으로 구성된 딥러닝 모델을 제안한다. 인접한 프레임들은 각 프레임의 시·공간적인 정보를 보다 효과적으로 추출하여 전파하기 위해 보간하는 대상 프레임을 기준으로 공간도메인에서 정렬한다. 각 정렬된 프레임은 대상 프레임으로부터 양방향으로 가장 멀리 떨어진 두 프레임부터 초기 특징 맵 (feature map)을 생성하여 대상 프레임 방향으로 시간적인 정보를 순차적으로 전파한다. 또한, 각 프레임의 위치에서 추출되는 특징 맵들은 연속적인 연결(dense connection)과 중요한 채널을 강조하는 채널 어텐션 모듈을 통과한다. 이를 통해 제안하는 모델은 반복적으로 인접한 프레임의 시간적인 정보를 공급하며 중요 특징에 가중치를 집중시키는 효과를 갖는다. 모델 학습의 경우, 코사인 형태로 점진적으로 학습률의 크기가 줄어드는 코사인 어닐링 (Cosine Annealing) 기법을 적용함으로써 안정적으로 모델을 학습할 수 있었으며 최종 모델의 성능이 국소 최저치 (local minima)에 수렴하는 대신 새로운 최적치 (optima)를 찾아 학습되도록 주기적으로 학습률을 초기화하여 학습을 이어가는 기법을 적용했다. 제안하는 모델을 포함하여 본 학위논문에서 비교하는 모델들은 공정한 성능 비교를 위해 모든 모델은 REDS 데이터셋의 training set을 이용하여 학습된 모델들이 성능 평가에 활용되었다. 성능 비교 실험은 REDS 데이터셋의 validation set과 Vimeo-90K의 test set이 사용되었으며 제안하는 모델은 기존의 방법들 보다 객관적 및 주관적 화질이 비슷하거나 향상된 성능을 보였다. 복잡도 측면에서도 다중 프레임이 사용되는 기존의 VSR 모델들보다 성능 대비 높은 fps (frames per second)와 비교적 낮은 GPU 사용량을 통해 모델의 효율성을 객관적으로 입증하였다. |The resolution of digital images is the most basic factor of image qualities, and the initial resolutions of the digital images are determined by the number of pixels generated by a sampling process from a digital camera. Through the continuous development of image sensors and display devices, digital image data and displays with various resolutions have been distributed. As a result, resolution conversion processes are often required due to the difference in resolution between image data and display devices. In particular, researches on the image up-sampling to reduce quality degradations when the resolution of the image data is lower than that of the display devices have been actively conducted. These tasks are called image interpolations, which refer to the generation of the higher-resolution digital images and are utilized in various image processing applications, such as the enlargement of a region of interest. Super-resolution mainly focuses on high-frequency components reconstruction since edge regions contain more information than smooth regions. However, it is very difficult to recover the high-frequency information of the digital image data because the information above a specific frequency is already lost through the sampling process. In addition, researches on super-resolution have long been regarded challenging problems even with artificial intelligences due to the ill-posedness that there is no unique solution. Recently, with numerous real-world image dataset and advances in GPU performances, learning-based super-resolution approaches have achieved excellent performances. In general, single image super-resolutions only use spatial information within a frame for upscaling, whereas in video super-resolutions (VSR), both spatial and temporal information of several adjacent frames are used together. Recently, multiple frames have been used in VSR models, and alignment methods for frames around the target frame to be interpolate have been proposed to construct stable models. This thesis presents a deep end-to-end network for VSR that effectively extracts and propagates the temporal information of the adjacent frames. Our model is based on the basic structure of recurrent neural network (RNN) and long short-term memory (LSTM), which are commonly used to extract the features of the sequential data. To alleviate an ill-posedness and effectively synthesize the temporal information, adjacent frames are aligned towards the target frame using optical flow in spatial domain. An initial feature map is generated by synthesizing the target frame with an aligned frame as a result of the blended temporal features. To sequentially propagate the temporal information, two frames that are farthest in both directions from the target frame are first input into the network. In addition, to effectively propagate features extracted from each frame, our model consists of iterative densely connected blocks with a channel attention (CA) module to distributed more weights to important features. It has the effect of concentrating important information by repeatedly supplying the blended spatial and temporal information of the adjacent frames. In the training phase, we adopted CosineAnnealing as a learning rate update scheme that gradually decreases learning rates in the form of a cosine to make learning process stable. Furthermore, our model is designed to find new optima instead of a convergence to local minima by periodically initializing learning rates. For fair performance comparison of the models compared in this thesis, including the proposed model, all models trained using the training set of REDS dataset were used for performance evaluation. In experiments, the validation set of REDS dataset and the test set of Vimeo-90K dataset were used, and the proposed method outperformed most previous methods in terms of the objective and subjective qualities. In addition, the efficiency of the model was proved by representing that relatively fewer frames are required and lower complexity, such as high fps (frames per second), than most VSR models.
URI
http://hanyang.dcollection.net/common/orgView/200000592188https://repository.hanyang.ac.kr/handle/20.500.11754/167823
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > DEPARTMENT OF ELECTRONIC ENGINEERING(융합전자공학과) > Theses (Ph.D.)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE