345 0

Salient Object Detection Techniques Using Pre-processing Filters and Multiple Saliency Cues

Title
Salient Object Detection Techniques Using Pre-processing Filters and Multiple Saliency Cues
Other Titles
전처리 필터 및 다중 돌출 신호를 사용한 돌출 물체 감지 기법
Author
Kyungjun Lee
Alternative Author(s)
이경준
Advisor(s)
정제창
Issue Date
2022. 8
Publisher
한양대학교
Degree
Doctor
Abstract
Salient object detection (SOD) is a method of finding an object within an image that a person determines to be important and is expected to focus on. In general, salient objects are detected by two mechanisms. One is a bottom-up method in which visual stimuli that have reached the retina of the eye are processed while being transmitted to the brain, and the other is a top-down method in which they are processed based on knowledge accumulated through various experiences. The human visual system (HVS) utilizes various visual stimuli for both methods and works through very complex mechanisms. Therefore, both neurobiological and psychological aspects must be considered for accurate SOD. In this dissertation, methods to improve bottom-up and top-down detection performance by considering human visual perception characteristics are presented. To improve the superpixel-based bottom-up method, two pre-processing methods to be applied to the input image are presented. First, saliency detection is performed in a short time, so overall shape acquisition takes precedence over image detail. Therefore, a bilateral filter is applied to improve the segmentation results by smoothing the image so that only the overall context of the image remains while preserving the important borders of the image. Second, various features are used to compute the visual saliency, and in general, the color and luminance of the scene are widely used among the spatial features. However, humans perceive the same color and luminance differently depending on the influence of the surrounding environment. Therefore, oriented difference-of-Gaussians (ODOG) and locally normalized ODOG (LODOG) filters that adjust the input image by predicting the brightness as perceived by humans are applied. In terms of top-down methods, a multi-color space network (MCSNet) is proposed to detect saliency objects using various saliency cues. Most state-of-the-art top-down SOD methods feed RGB images into a network to extract features and train the network. However, there are many factors that affect visual saliency besides color information, so using a single color space is insufficient to obtain sufficient features. Therefore, the proposed MCSNet uses a color space converter (CSC) module to convert images into HSV and grayscale color spaces to obtain saliency signals other than those provided by RGB color information. Each saliency cue is fed into two parallel backbone networks to extract features. Contextual information is obtained from the extracted features using atrous spatial pyramid pooling (ASPP). The features obtained from both paths are passed through the attention module, and channel and spatial features are highlighted. Finally, the final saliency map is generated using a step-by-step residual refinement module (RRM). Furthermore, the network is trained with a bidirectional loss function to supervise saliency detection results. The pre-processing filters for superpixel-based SOD methods have been applied to 6 conventional methods to confirm the improvements. The top-down method has been compared with 13 state-of-the-art methods. Experiments for both types of methods have been conducted using five different public benchmark datasets, respectively. From the experimental results, it can be confirmed that both types of the proposed methods show improved performance compared to the conventional methods in terms of visual evaluation and quantitative numerical evaluation. |돌출 객체 검출 (Salient Object Detection, SOD)은 이미지 내에서 사람이 중요하다고 판단하고 초점을 맞출 것으로 예상되는 객체를 찾는 방법이다. 일반적으로 돌출 객체는 두 가지 메커니즘으로 감지된다. 하나는 눈의 망막에 도달한 시각 자극을 뇌로 전달하면서 처리하는 상향식 방식이고, 다른 하나는 다양한 경험을 통해 축적된 지식을 바탕으로 처리하는 하향식 방식이다. 인간 시각 시스템 (Human Visual System, HVS)은 두 가지 방법 모두에 대해 다양한 시각 자극을 활용하며 매우 복잡한 메커니즘을 통해 작동한다. 따라서 정확한 돌출 물체 감지를 위해서는 신경생물학적 측면과 심리적 측면을 모두 고려해야 한다. 본 박사학위 논문에서는 인간의 시각적 지각 특성을 고려하여 상향식 및 하향식 탐지 성능을 향상시키는 방법을 제시한다. 슈퍼 픽셀 (superpixel) 기반의 상향식 방법을 개선하기 위해 입력 영상에 적용할 두 가지 전처리 방법을 제시한다. 첫째, 돌출 감지는 짧은 시간에 이루어지기 때문에 이미지의 디테일보다 전체적인 형상 획득이 우선시된다. 따라서 이미지의 중요한 경계는 유지하면서 이미지의 전체 컨텍스트만 남도록 이미지를 매끄럽게 하여 분할 결과를 개선하기 위해 양방향 필터 (bilateral filter)가 적용된다. 둘째, 시각적 돌출도를 계산하기 위해 다양한 피쳐 (feature)들이 사용되며, 일반적으로 공간적 피쳐 중에서 장면의 색상과 휘도가 주로 사용된다. 그러나 인간은 주변 환경의 영향에 따라 동일한 색상과 휘도를 다르게 인식한다. 따라서 인간이 인지하는 밝기를 예측하여 입력 영상을 조정하는 지향적 가우시안 차 (Oriented Difference-of-Gaussians, ODOG) 필터와 지역적 정규화 ODOG(Locally normalized ODOG, LODOG) 필터가 적용된다. 하향식 방법의 관점에서, 다양한 돌출 신호를 사용하여 돌출 객체를 감지하기 위해 다중 색상 공간 네트워크 (Multi-Color Space Network, MCSNet)를 제안한다. 대부분의 최첨단 하향식 SOD 방법은 RGB 이미지를 네트워크에 입력하여 특징을 추출하고 네트워크를 훈련시킨다. 그러나 색상 정보 외에도 시각적인 부각에 영향을 미치는 요인은 다양하기 때문에 단일 색상 공간을 사용하는 것만으로는 충분한 특징을 얻을 수 없다. 따라서 제안하는 MCSNet은 RGB 색상 정보가 제공하는 것 이외의 현저한 신호를 얻기 위해 색 공간 변환기 (Color Space Converter, CSC) 모듈을 사용하여 이미지를 HSV 및 회색조 색상 공간으로 변환한다. 각 돌출 신호는 두 개의 병렬 VGG 기반 백본 (backbone) 네트워크에 공급되어 피쳐를 추출한다. 다음으로 아트러스 공간 피라미드 풀링 (Atrous Spatial Pyramid Pooling, ASPP)를 사용하여 추출된 피쳐에서 컨텍스트 정보 (contextual information)를 얻는다. 두 경로에서 얻은 피쳐는 집중 모듈 (attention module)에 전달되고 채널 및 공간 정보가 강조된다. 마지막으로, 최종 돌출 맵은 단계별 잔차 정제 모듈 (Residual Refinement Module, RRM)을 사용하여 생성된다. 또한 네트워크는 돌출 감지 결과를 감독하기 위해 양방향 손실 (bidirectional loss)로 훈련된다. 상향식 SOD에 대한 개선 방법은 6개의 슈퍼 픽셀 기반의 방법에 적용하여 결과를 확인하였으며 하향식 방식은 13개의 최신 방식과 비교하였다. 두 가지 유형의 방법에 대한 실험은 각각 5개의 서로 다른 공개된 벤치마크 데이터 세트를 사용하여 수행되었다. 실험 결과를 통해 제안하는 두 가지 방법 모두 시각적 평가와 정량적 수치 평가 측면에서 기존 방법에 비해 향상된 성능을 보이는 것을 확인할 수 있다.
URI
http://hanyang.dcollection.net/common/orgView/200000628338https://repository.hanyang.ac.kr/handle/20.500.11754/174187
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > ELECTRONICS AND COMPUTER ENGINEERING(전자컴퓨터통신공학과) > Theses (Ph.D.)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE