506 0

Dilated Warping Convolution for Object Detection in Fisheye

Title
Dilated Warping Convolution for Object Detection in Fisheye
Other Titles
어안 렌즈 환경에서의 물체 검출을 위한 확장 왜곡 합성곱 신경망
Author
배지운
Alternative Author(s)
배지운
Advisor(s)
임종우
Issue Date
2021. 2
Publisher
한양대학교
Degree
Master
Abstract
어안 렌즈 카메라는 넓은 시야각을 확보할 수 있는 장점이 있어 여러 컴퓨터 비전 분야에 자주 사용 된다. 하지만 어안 렌즈로 촬영된 이미지는 극심한 원형 왜곡을 보이기 때문에 일반적인 이미지와 같이 사용하려면 기하학적 왜곡 보정을 필요로 한다. 일반적인 심층 합성곱 신경망(deep convolution neural network)은 이미지를 격자 모양의 화소 집합으로 보고 인근의 화소의 정보를 이용해 계산하도록 설계되어 있다. 과도한 어안 렌즈왜곡 외에도 어안 이미지 주변의 픽셀이 이미지 중앙의 픽셀보다 훨씬 더 넓은 영역을 차지하므로 일반적인 합성곱 신경망을 사용하여 물체를 감지하는데 어려움을 겪을 수 있다. 본 논문에서는 왜곡 보정을 포함하는 확장 왜곡 합성곱 신경망(dilated warping convolution neural network)를 이용한 어안 렌즈 이미지에서의 물체 감지 모델을 제안한다. 제안된 네트워크는 여러 단계에서 획득한 특징 지도(feature map)에 이미지 왜곡을 고려하는 확장 합성곱 신경망을 추가합니다. 또한 관심 영역 풀링(region of interest pooling) 단계에서도 카메라 매개 변수(camera parameter)를 통해 계산된 보정값을 이용해 원형으로 왜곡된 가중치를 기반으로 풀링한다. 그리고 심도 별 분리형 합성곱 신경망(depth-wise separable convolution)을 역 잔차 블록(inverted residual block)으로 구성하여 네트워크를 경량화 하여 임베디드 시스템에서 작동할 수 있도록 만들었다. 또한 어안렌즈 이미지와 정답 라벨을 포함하는 데이터세트를 만들고 기존 모델이 핀 홀 카메라 데이터 세트에서 달성한 성능을 어안렌즈 이미지에서 재현할 수 있었다.; Fisheye cameras are often used in various vision applications because of their wide field-of-view (FOV). However fisheye lenses show severe lens distortion, resulting in a distorted image in a round circle, requiring calibration and geometric distortion correction according to the distortion. For deep neural networks the general convolution layer is designed to compute from adjacent pixels in a grid-shaped pixel in an image. In addition to the excess amount of distortion, the pixels in the periphery of fisheye images cover much larger areas than those in the center of the images, thus it can cause difficulty in detecting objects using standard convolution layers. In this thesis, we propose the dilated warping convolution neural network for object detection in fisheye environments includes distortion correction. The proposed network adds a layer that warps the image in global coordinates between the feature maps in several stages using Dilated Convolution Neural Network. In addition, by creating a default box that consider fisheye distortion using the calculated through the camera parameters, the model can detects the objects with fewer parameters. We designed the lightweight model using inverted residual block and depth-wise separable convolution to seed up on inference scope and discards unnecessary weights and operations for running on embedded systems. In addition, we create a fisheye lens dataset with GT labels and reproduce the performance on fisheye images that model achieved with pin hole camera dataset.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/159392http://hanyang.dcollection.net/common/orgView/200000485469
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE(컴퓨터·소프트웨어학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE