자기주의 및 수용영역 확장을 통한 객체 검출 성능 향상

Title
자기주의 및 수용영역 확장을 통한 객체 검출 성능 향상
Other Titles
Improvement on Object Detection by Self-Attention and Receptive Field Expansion
Author
권오준
Alternative Author(s)
Kwon, Ohjun
Advisor(s)
정제창
Issue Date
2022. 8
Publisher
한양대학교
Degree
Master
Abstract
The human visual system quickly recognizes the objects, which human eyes look at and only determines important information captured through the eyes. Just as the human brain uses overall contextual information to distinguish features of the objects, deep learning-based object detection models also extract features of image input through that neural network to know what kind of object is and where it is located. Deep learning-based object detection technology has developed rapidly with convolutional neural network (CNN) and has shown potential in various applications with built-in cameras such as autonomous driving, CCTV, medical imaging, robots and military security devices. There have been significant advances in detecting medium and large size objects in computer vision, but the existing object detectors have shown poor performance for detecting small objects, which is a set of pixels that occupy a small area or a distant object in an image. As a result, its uses in aerial imaging and the field that requires high speed and complete accuracy, such as autonomous driving is limited. Transformer, as the groundbreaking model in the field of natural language processing (NLP), has been demonstrated to be effective in learning global contextual features of an input string. The breakthroughs from Transformer in NLP led to the study of feature extraction and object detection in computer vision. Many object detectors have been conducted on CNN-based feature extraction methods, which learned the features of objects with convolutional filters with fixed sizes. For this reason, the detection model depends on the convolutional filter size and it requires multiple CNN layers to determine the association between distant pixels in the input images. However, Transformer considers the correlation between objects in the overall image with only a single module. This advantage helps the limitations of the filter size of CNN and the model retains sufficient spatial information for feature learning well. In this paper, we discuss deep learning-based object detection and propose techniques to improve object detection accuracy for YOLOv4-CSP. The proposed algorithm verifies the applicability of Transformer to CNN-based feature extraction methods and improves the performance of YOLO on small object detection using the extended receptive field in the channel direction. We present the improved Cross Stage Partial Block (CSP Block), which is based on YOLOv4-CSP. Our proposed CSP Blocks globally attend to contextual information which is pixel-related features across the entire input image through self-attention used in Transformer, and the blocks are placed between the end of the backbone and the neck of YOLOv4-CSP so that the model extracts the object features well. In addition, we apply spatial Pyramid Pooling (SPP) and Focus module in the form of CSP to the proposed blocks to integrate and enhance features at different layers in the neck of YOLOv4-CSP. We demonstrate the evaluation of each proposed algorithm based on ablation studies. For the objective evaluation of each model in which the algorithm is used, we used MS COCO 2017 dataset. Additionally, for visual comparison of detection performance between each model, we show the inference images of each model on BDD100K dataset, a road driving environment dataset. Compared to the baseline model, the proposed model achieves some significant results on small object detection.| 사람의 시각 시스템은 눈이 바라보는 대상을 빠르게 인식하며 포착된 중요한 정보만을 판단한다. 이처럼 사람의 뇌가 바라보는 사물의 특징을 구분하기 위해 해당 물체의 전반적인 맥락 정보를 사용하는 것처럼 딥러닝 기반의 객체 검출 모델 또한 모델의 신경망을 통해 입력 영상의 특징 (feature)를 추출하여 어떤 종류의 물체인지, 물체가 어느 영역에 존재하는지 파악한다. 딥러닝 기반의 객체 검출(Object Detection) 기술은 합성곱 신경망 (Convolutional Neural Network, CNN)과 함께 급속도로 발전하였으며 자율주행, CCTV, 의료영상, 로봇 제어, 군사보안장치 등 카메라가 내장된 다양한 응용 분야에 활용 가능성을 보인다. 컴퓨터 비전 영역에서 객체 검출 기술은 중간 크기 및 큰 객체 검출에 상당한 발전이 있었지만, 기존 대다수의 검출기는 멀리 있는 물체 또는 영상 내 작은 영역을 차지하는 화소들의 집합, 즉 작은 객체를 감지하는 작업에 대해서는 낮은 성능을 보인다. 이러한 문제로 인해 항공 영상 또는 자율주행과 같은 고속의 검출 속도 및 완전한 정확도가 필요한 분야에서의 사용은 제한적이다. 자연어 처리 분야(Natural Language Processing, NLP)의 트랜스포머 (Transformer)는 입력된 문자열의 문맥적 특징을 가장 효과적으로 학습하는 모델이다. NLP에서의 Transformer의 성과는 컴퓨터 비전 영역의 객체 특징 학습 및 검출 연구로 이어지고 있다. 대다수의 객체 검출기들은 고정된 필터 크기를 갖는 CNN 기반의 특징 추출 방식을 기반으로 연구되었다. 이에 따라 모델 학습이 합성곱 필터의 크기에 의존하게 되며, 입력 영상 내 먼 위치에 존재하는 화소 간 연관성 학습에 있어 다수의 CNN 계층을 필요로 한다. 반면, Transformer는 단일 모듈(module)만으로 전반적인 영상 내 객체 간 상관관계를 고려한다. 이러한 특징은 CNN의 필터 크기의 한계를 보완하며 모델이 객체의 feature에 대한 공간 정보(spatial information)를 잘 유지할 수 있도록 도움을 준다. 본 논문에서는 딥러닝 기반의 객체 검출 기법에 대해 다루며, CNN 기반의 실시간 객체 검출기 YOLOv4-CSP의 객체 검출 성능 향상 기법을 제안한다. 제안하는 알고리듬은 CNN 기반의 특징 추출 방식에 대한 Transformer의 적용 가능성을 확인하며, 채널 방향으로의 수용 영역(receptive field) 확장 기법을 사용하여 YOLO의 작은 객체 검출 성능을 개선한다. 제안하는 알고리듬은 YOLOv4-CSP의 CSP Block(Cross Stage Partial Block)을 개선한 알고리듬으로, Block 내 Transformer의 자기주의(Self-Attention) 연산을 통해 입력 영상 전반의 문맥 정보 및 화소 간 연관성이 높은 특징 정보에 주목하며, 모델의 backbone 말단 계층과 neck을 연결하여 특징 추출 성능을 높인다. 또한 YOLOv4-CSP Neck 부분의 서로 다른 계층의 feature를 통합하고 향상시키기 위해 CSP 형태의 공간 피라미드 풀링(Spatial Pyramid Pooling, SPP) 모듈과 Focus 모듈을 제안하는 CSP Block에 적용하였다. 본 논문의 실험은 절제 연구를 기반으로 한 제안하는 알고리듬별 객체 검출 성능 평가를 보인다. 알고리듬이 사용된 각 모델의 객관적 평가를 위해 MS COCO 2017 데이터 세트를 사용하였다. 또한 모델별 검출 성능에 대한 시각적인 비교를 위해 도로 주행 환경 데이터 세트인 BDD100K를 사용하여 각 모델의 검출 결과 영상을 보인다. 본 연구의 기준 모델이 되는 YOLOv4- CSP는 제안하는 알고리듬을 통해 유의미한 검출 정확도 향상을 보인다.
URI
http://hanyang.dcollection.net/common/orgView/200000626837https://repository.hanyang.ac.kr/handle/20.500.11754/174620
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > DEPARTMENT OF ELECTRONIC ENGINEERING(융합전자공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE