237 0

심층 신경망에서 더욱 넓은 수용 영역에서의 컨볼루션과 이들의 조밀한 조합을 이용한 영상 내 물체 인식 및 분할 기술

Title
심층 신경망에서 더욱 넓은 수용 영역에서의 컨볼루션과 이들의 조밀한 조합을 이용한 영상 내 물체 인식 및 분할 기술
Other Titles
Multi-Scale Atrous Spatial Pyramid Pooling for Larger and Denser receptive field in Semantic Segmentation
Author
한명규
Alternative Author(s)
Myungkyu Han
Advisor(s)
서일홍
Issue Date
2019-02
Publisher
한양대학교
Degree
Master
Abstract
심층 합성 곱 신경망 (deep convolutional neural network)의 발전으로 영상의 의미적 분할 (semantic segmentation)은 과거에 비해 뛰어난 성능을 보이고 있다. 영상 의미 분할은 한 영상의 각 화소 (pixel)에 의미 레이블 (semantic label)을 부여하는 기법으로 로봇 비전, 자율주행 자동차, 의료 영상 등의 분야에서 물체의 클래스 또는 인스턴스 인식, 주행가능 지역 판단, 질병 진단 등을 위하여 사용된다. 이러한 애플리케이션에서 크기가 다양한 물체들을 높은 정확도로 의미 분할을 수행하는 것이 매우 중요하다. 본 논문에서는 투영되는 물체들의 다양한 크기 변화 – 즉, 동일한 물체이더라도 카메라의 시점 변화에 따라 영상 내에서의 스케일의 변화가 큰 상황에서도 효과적으로 픽셀단위의 물체 분류를 수행하는 최신 기술을 상세히 소개하며 이를 멀티 스케일로 확장하여 더욱 효과적으로 의미 분할을 수행하는 방법을 제안한다. 본 논문에서 제안하는 방법은 최신 성능의 기존 모델에 비해 의미 분할을 향상시키기 위한 목적으로 설계된 다중 크기의 확장된 공간적 피라미드 풀링 (multi-scale atrous spatial pyramid pooling ,Multi-scale ASPP)구조 이다. 다음 두 가지 절차를 따라 제안된 모델이 더욱 높은 의미 분할 수행을 할 수 있음을 보인다. 먼저, 최신 성능의 기존 모델과 제안된 모델을 같은 확장 비율 (dilation rate) 에 따라 추출된 특징을 보여주면서 제안된 모델은 최신 성능의 기존 모델에서 추출된 특징뿐만 아니라 추출되지 않은 특징을 보여주면서 더욱 조밀한 의미 분할 수행의 가능성을 확인한다. 그리고 제안된 모델의 정량적 성능을 검증하기 위해 혼합 행렬 (confusion matrix)을 정의하고 이를 이용하여 제안된 모델이 의미 분할 정확도 측면에서 0.8%p 향상된 결과를 얻음을 실험적으로 보인다.
With the development of deep convolutional neural network (DCNN), semantic image segmentation have performed better than one in the past. semantic segmentation is a technique that assigns semantic labels to each pixel of an image. It recognizes class or instance of an object in the field of robot vision, autonomous vehicle, medical image and detects where it is possible driving or not and diagnosis disease. In such an application it is very important to perform semantic segmentation of objects varying sizes with high accuracy. In this paper, we describe in detail the latest technology that effectively perform pixel-based object classification even in situations where the scale change in the image is large according to the viewpoint change of the camera, even if the same object changes in various sizes of the projected objects. We propose a method to perform semantic segmentation more effectively by expanding multi-scale. The proposed model is a multi-scale atrous spatial pyramid pooling (Multi-scale ASPP) designed to improve the performance of semantic segmentation compared to state-of-the-art baseline model. The following two procedures show that the proposed model can perform precision semantic segmentation. First, we show extracted features according to the same dilation rate of the state-of-the-art baseline model and the proposed model, while the proposed model shows that not only the features extracted from the state-of-the-art baseline model but also the features not extracted from the model confirm the possibility of performing dense semantic segmentation. In order to verify the quantitative performance of the proposed model, we define a confusion matrix and experimentally show that the proposed model improves the precision of the semantic segmentation by 0.8% p.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/99736http://hanyang.dcollection.net/common/orgView/200000435137
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > ELECTRONICS AND COMPUTER ENGINEERING(전자컴퓨터통신공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE