149 0

Diversity-aware Spatio-temporal Conditioning Method for Diffusion Model-based Video Object Detection

Title
Diversity-aware Spatio-temporal Conditioning Method for Diffusion Model-based Video Object Detection
Other Titles
확산 모델 기반의 비디오 객체 감지를 위한 다양성 기반 시공간 조건화 방법
Author
노시동
Alternative Author(s)
Roh Si-Dong
Advisor(s)
정기석
Issue Date
2024. 2
Publisher
한양대학교 대학원
Degree
Doctor
Abstract
비디오 객체 감지(VOD)는 시간적으로 연속된 이미지 시퀀스에서 객체를 감지하는 것을 목표로 하는 컴퓨터 비전의 기본 영역 중 하나이다. 휴대폰, 드론, 자동차, 액션 카메라 등 비디오 매체의 인기가 높아짐에 따라 비디오 데이터의 분석 및 활용을 위해 동영상에서 객체 감지의 역할 또한 중요해지고 있다. VOD 작업은 비디오 내 물체의 위치와 경계를 식별하고 물체를 여러 범주로 분류하는 작업으로 구성된다. 최근 컨볼루션 신경망(CNN) 및 Swin-Transformer 와 같은 심층 컨볼루션 신경망의 발전으로 단일 이미지 기반 객체 감지기는 상당한 발전을 이루었다. 하지만 모션 블러, 부분 오클루전, 카메라 디포커스, 포즈 변화와 같은 심각한 이미지 품질 저하로 인해 동영상에서 물체를 감지할 때 정확도가 크게 감소한다. 이러한 문제를 해결하기 위해 기존의 비디오 객체 검출 방법은 시공간 정보를 활용한다. 최근의 VOD 방법 중 다수는 주의 기반 (attention-based) 방식으로, 다중 헤드 주의 (multi-head attention)를 사용하여 객체 특징 간의 관계를 모델링한다. 주의 기반 방식은 현재 프레임과 참조 프레임에서 추출한 객체 특징들을 교차 주의(cross-attention)로 합산하여 최종 예측을 강화한다. 하지만 기존의 주의 기반 방식에는 두 가지 한계점이 존재한다. 첫째로, 선입선출 (First-in-First-Out) 방식의 참조 피처 메모리는 피처의 내용을 고려하지 않으므로 이를 이용한 주의 성능이 제한된다. 기존 방법은 다양성을 위해 참조 프레임의 양을 늘렸지만, 객체 특징이 중복 또한 늘어나므로 성능 향상은 제한되며 계산 효율성 또한 낮다. 둘째로, 낮은 영역 제안 (region proposal) 성능이다. 기존 방식인 지역 제안 네트워크 (region proposal network)는 Faster-RCNN에서 제안된 이후 별다른 진전이 없었다. 영역 제안은 후속 관심도 집계의 성능에 영향을 미치는 객체 특징을 생성하기 때문에 영역 제안 네트워크의 성능을 개선하는 것이 매우 중요하다. 본 학위 논문에서는 VOD를 위한 두 가지 딥러닝 방법, 즉 다양성 인식 특징 집계 방법 (DAFA)과 DiffusionVID를 제안한다. DAFA는 다수의 객체 특징들 중에서 중요한 적은 수의 특징 집합들, 즉 시공간 코어셋을 선택하여 집계할 참조 객체 쿼리의 수를 줄이는 데 중점을 두며, DiffusionVID는 반복적인 객체 영역 제안 향상 및 조건부 노이즈 제거 프로세스를 활용하여 강력한 객체 검출을 수행하는 최초의 확산 모델 기반 비디오 객체 검출기를 구축하는 데 중점을 둔다. 해당 연구들은 널리 사용되는 ImageNet-VID 및 YouTube-Objects 벤치마크에서 광범위한 실험이 수행되었다. DiffusionVID는 ImageNet-VID 데이터 세트에서 27.0 FPS의 속도로 92.4 mAP의 검출 성능을 달성하여 합리적인 추론 속도와 탐지 정확도에서 다른 모든 최신 방법을 능가하는 성능을 보였다.|Video object detection (VOD) is one of the most fundamental areas of computer vision that aims to detect objects in a temporally continuous image sequence. With the increasing popularity of mobile phones, drones, cars, and action cameras, the role of object detection in videos has become critical. The task involves identifying the position and boundaries of objects and classifying the objects into different categories in videos. Recent advances in deep neural networks, such as convolutional neural networks (CNNs), have driven significant progress in single-image-based object detectors. However, they failed to achieve sufficiently high accuracy when detecting objects in videos, mainly due to severe image deteriorations such as motion blur, partial occlusion, camera defocus, and pose variation. To remedy this problem, existing video object detection methods commonly utilize spatio-temporal information. Many of the recent VOD methods are attention-based methods that model relationships between object features using attention mechanisms derived from multi-head attention. In the attention-based model, object features that are extracted from the current frame and the reference frames are aggregated using cross-attention to enhance the prediction. However, previous attention-based VODs have two limitations. First, their first-in-first-out reference feature memory does not consider the contents of features, resulting in poor attention performance. Most of them increased the number of reference frames for diversity, but they have low efficiency because of redundant object features. The second limitation is the poor performance of the region proposal. There has been no progress in the region proposal network (RPN) since it was proposed in Faster-RCNN. Improving the region proposal performance is important because region proposals generate object features that affect the performance of subsequent attention aggregation. In this thesis, two deep learning methods for VOD are proposed: diversity-aware feature aggregation (DAFA) and DiffusionVID. DAFA focuses on reducing the number of reference object queries to aggregate by selecting a small set of significant features, i.e., a spatio-temporal coreset, from a large number of extracted object features, while DiffusionVID focuses on building the first diffusion model-based video object detector that utilizes an iterative object region proposal enhancement and conditional denoising process to perform robust object detection. Extensive experiments are conducted on the standard and widely used ImageNet-VID and YouTube Objects benchmarks. DiffusionVID achieved 92.4 mAP with 27.0 FPS in ImageNet-VID dataset, outperforming all other state-of-the-art methods in detection accuracy with reasonable inference speed.
URI
http://hanyang.dcollection.net/common/orgView/200000725828https://repository.hanyang.ac.kr/handle/20.500.11754/188757
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > DEPARTMENT OF ELECTRONIC ENGINEERING(융합전자공학과) > Theses (Ph.D.)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE