544 0

카메라 화질 개선을 위한 Swin-Unet 트랜스포머 기반의 영상 복원 네트워크

Title
카메라 화질 개선을 위한 Swin-Unet 트랜스포머 기반의 영상 복원 네트워크
Other Titles
Image Restoration Network Using Swin-Unet Transformer to Improve Camera Image Quality
Author
정군
Alternative Author(s)
Jun, Zheng
Advisor(s)
정제창
Issue Date
2022. 8
Publisher
한양대학교
Degree
Master
Abstract
현재 디지털 카메라 성능의 발전과 스마트폰의 보급화에 의해 누구나 영상을 쉽게 얻을 수 있게 되었다. 하지만 카메라로부터 얻은 디지털 영상 내에는 다양한 불확실한 요인으로 인해 잡음 (Noise) 또는 블러 (Blur)가 생성되고 이는 고화질 영상을 획득하는 데 있어서 방해요소로 작용한다. 이에 따라 이러한 화질 저하 (Degradation) 문제를 해결할 수 있는 기술들이 필요하게 되었고 많은 연구가 진행되고 있다. 기존에 있는 전통적인 저하 문제 제거 기법은 처리 속도가 느리고 이상적인 제거 효과를 보여주지 못하였다. 그러다 GPU 성능이 좋아지고 방대한 양의 영상 데이터 셋이 구축되면서 컴퓨터 비전 (Computer Vision)의 각 분야에서 딥 러닝 기반의 합성곱 신경망 (Convolutional Neural Network; CNN) 알고리듬들이 활발하게 연구되기 시작하였다. 이러한 합성곱 신경망은 불과 5년 전까지만 해도 전통적인 기법에 비해 뛰어난 성능으로 가장 인기 있는 딥 러닝 모델로 손꼽혔다. 최근에는 합성곱 신경망과 상대할 수 있고 인공지능 분야의 혁신이라고 할 수 있는 트랜스포머 (Transformer)가 많은 주목을 받고 있다. 이는 자연어 처리 (Natural Language Processing; NLP)분야에서 처음으로 등장하였고 데이터 내의 관계를 추적하여 콘텍스트 (Context)와 의미를 학습하는 신경망이다. 현재 트랜스포머는 다양한 분야에서 활용돼 합성곱 신경망과 비슷하거나 더 좋은 성능을 보여주면서 혁신을 가속하고 있다. 본 학위 논문에서는 가장 큰 영상 저하 문제에 대하여 딥 러닝 기반의 잡음 제거 기법 (가우시안 컬러 영상 잡음 제거, 실제 카메라 잡음 제거)과 모션 블러 제거 기법에 대해 다룬다. 제안하는 모델은 Swin-Unet 트랜스포머를 기본 구조로 하여 구현한다. 이러한 구조는 트랜스포머 중 연산량이 상대적으로 적고, 영상 내 픽셀의 콘텍스트를 학습 가능한 Swin 트랜스포머 (Shifted window Transformer) 블록을 의료 분야에서 많이 사용되고, 윤곽선 검출에 유리한 U-Net구조에 접목하여 구성된다. 제안하는 신경망 알고리듬의 Swin 트랜스포머 블록에서는 윈도우 다중 헤더 Dconv 어텐션 (Windows Multi-head Dconv Attention; WMDA)모듈로 기존 다중 헤더 어텐션 (Multi-head Self Attention; MSA)을 대체하고, 국부 향상 Gated Dconv 순방향 네트워크 (Locally-enhanced Gated Dconv feed-forward network; LeGD)모듈로 기존 순방향 네트워크 (Feed Forward Network; FFN)를 대체하여 구현한다. 이를 통해 제안하는 모델은 인접한 픽셀 간의 콘텍스트와 채널 간의 콘텍스트를 파악하고 영상 디테일을 잘 보존하는 영상 복구 효과를 갖는다. 제안하는 모델을 학습하는 경우, 주기에 따라 고정적인 학습률과 코사인 어닐링 (Cosine annealing)기법을 통해 점진적으로 줄어드는 학습률로 나눠서 모델을 안정적으로 학습한다. 모델의 성능을 평가하기 위해 각 저하 영상 복원 모델을 객관적 화질 평가 지표인 PSNR (Peak Signal-to-Noise Ratio)과 SSIM (Structural Similarity Index Map)으로 비교하고, 주관적 품질 비교는 복원 영상의 확대 영상을 통해 세부적으로 비교 평가한다. 실험은 제안하는 모델과 경량화 모델을 통해 성능을 확인하고 모든 결과에서 제안하는 모델과 경량화 모델이 기존 딥 러닝 기반 알고리듬보다 훌륭한 복원 성능을 확인할 수 있었다. 그리고 제안하는 모델은 영상의 저하 문제를 해결하면서 원본 (Ground truth) 영상에 존재하는 잡음도 어느정도 제거가 가능하다는 것을 확인하였다. 또한 절제 연구 (Ablation study)를 통해 각 구성 요소의 기어도를 분석하여 모듈들의 성능을 확인하였고, 제안하는 모델이 영상 내의 콘텍스트 정보를 추출하고 화질 향상에 효과적인 것을 입증하였다.
URI
http://hanyang.dcollection.net/common/orgView/200000627390https://repository.hanyang.ac.kr/handle/20.500.11754/174617
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > DEPARTMENT OF ELECTRONIC ENGINEERING(융합전자공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE