111 0

Deep Learning-based Object Detection Techniques using Spatio-temporal Context

Title
Deep Learning-based Object Detection Techniques using Spatio-temporal Context
Author
고준호
Advisor(s)
Jun Won Choi
Issue Date
2024. 2
Publisher
한양대학교 대학원
Degree
Doctor
Abstract
본 학위 논문에서는 시공간 맥락 정보를 활용한 딥러닝 기반 객체 검출 기법을 연구하였다. 차량 혹은 로봇의 자율주행에 대한 수요가 급증함에 따라, 객체 검출 기술은 자율주행 시스템의 핵심 요소가 되었다. 실제 주행 환경에서, 객체 검출은 카메라 비디오 혹은 라이다 (LiDAR) 시계열 포인트 클라우드와 같은 연속된 데이터에서 수행된다. 이러한 시계열 데이터는 풍부한 시공간 정보를 포함하고 있지만, 기존의 객체 검출 기술들은 특정 시점의 공간 정보에만 초점을 맞춘다. 이는 시계열 센서 데이터에서 제공하는 시간 정보의 잠재적 활용을 간과하는 문제점을 가진다. 본 논문에서는 시계열 센서 데이터의 시공간 맥락 정보를 활용한 객체 검출 기법에 대하여 소개하였다. 첫째, 카메라 기반 2차원 비디오 객체 검출 기술을 제안하였다. 제안된 2차원 비디오 객체 검출기는 인접한 프레임에서 추론된 움직임 맥락정보와 시계열 이미지 데이터에 대해 집계된 시공간 특징 정보를 모두 활용한다. 먼저 인접한 두 프레임에서 추출된 특징지도 사이의 상관관계 (correlation)를 계산하고, LSTM을 활용해 상관관계 지도를 인코딩하여 움직임 맥락 정보를 추출한다. 또한, 이미지 특징지도를 강화하기 위해 연속된 프레임에 대한 특징지도를 집계 (aggregation)한다. 현재 시점의 특징지도와의 관련성에 따라 이전 특징지도들을 선택적으로 융합하기 위한 게이팅 어텐션 구조를 활용한다. 실험은 ImageNet VID 데이터셋에서 수행되었으며, 기존 비디오 객체 검출기에 비하여 높은 성능을 보였다. 둘째, 새로운 라이다 기반 3차원 객체 검출기를 제안하였다. 제안된 3차원 객체 검출기는 연속적인 스캐닝으로 획득한 시계열 라이다 포인트 클라우드 데이터를 인코딩하여 시간 정보를 객체 검출에 활용하였다. 시계열 포인트 클라우드의 인코딩 과정은 두 가지 시간 척도에서 수행된다. 우선, 각 복셀에서 물체의 기하학적 움직임에 따른 포인트 클라우드의 단기간 (short-term) 변화를 인코딩하여, 보다 강인한 복셀 특징지도를 추출한다. 그 다음, 장기간 (long-term) 움직임 맥락 정보를 활용하여 단기 복셀 인코딩으로 얻은 연속된 BEV 특징지도를 정렬 (alignment)하고 집계한다. 실험은 nuScenes 3차원 객체 검출 벤치마크에서 진행되었다. 제안된 3차원 객체 검출기는 베이스라인 기법 대비 성능이 크게 향상되었으며 최첨단 (state-of-the-art) 성능을 제공하였다. 마지막으로 다중 시점 (Multi-view) 3차원 비디오 객체 검출 수행을 위한 새로운 시간 융합 구조를 제안하였다. 제안된 모델은 장기간 시계열 데이터가 가지는 양질의 시공간 정보를 보다 효율적으로 활용하기 위해 장기 반복 융합 전략 (Long-term recurrent fusion strategy)를 채택하였다. 제안된 융합 모델은 연속된 다중 시점 비디오 프레임에서 얻은 특징지도를 정렬 및 집계 과정을 통해 보다 강인한 BEV 특징지도를 생성한다. 먼저 자차 및 주변 객체의 움직임 맥락 정보를 사용하여 이전 BEV 특징지도를 현재 BEV 특징지도에 정렬한다. 그 다음, 정렬된 BEV 특징지도는 게이팅 어텐션 모델을 활용하여 현재 BEV 특징지도와 집계한다. 실험은 nuScenes 데이터셋에서 진행되었다. 제안된 방법은 단일 프레임 기반 기존 방법 대비 높은 성능 향상을 달성하였으며, 최신 알고리즘 대비 높은 성능을 나타내었다.|In this dissertation, deep learning-based object detection techniques using spatio-temporal context information are studied. With the rapidly increasing demand for autonomous vehicles, object detection techniques play an essential role in an autonomous driving system. In real-world applications, object detection is performed on continuous sensor data, such as camera video frames or LiDAR point cloud sequences. While these sequence data contain valuable temporal information, existing object detection methods focus only on the spatial information of a single data, ignoring the potential ability to improve performance by leveraging the information provided by successive sensor data. This dissertation delves into object detection techniques utilizing the spatio-temporal context from continuous sensor data. First, a novel camera-based 2D video object detection method is proposed. The proposed 2D video object detector exploits both the motion context inferred from the adjacent frames and the spatio-temporal features aggregated over the image sequence. First, the correlation between the spatial feature maps over two adjacent frames is computed, and the embedding vector, representing the motion context, is obtained by encoding the N correlation maps using long short-term memory (LSTM). In addition to utilizing the motion context, the spatial feature maps for (N+1) consecutive frames are aggregated to boost the quality of the feature map. The gated attention network is employed to selectively combine the temporal feature maps based on their relevance to the feature map in the present image frame. While most video object detectors have been developed for two-stage object detectors, the proposed idea applies to one-stage detectors with the advantage of low computational complexity in practical real-time applications. The experiments conducted on the ImageNet object detection from video (VID) dataset demonstrate that the proposed method achieves significant performance gain over the baseline algorithms and outperforms the existing one-stage video object detectors. Second, a novel LiDAR-based 3D object detection architecture is proposed. The proposed 3D object detector can encode LiDAR point cloud sequences acquired by multiple successive scans. The encoding process of the point cloud sequence is performed on two different time scales. First, a short-term motion-aware voxel feature encoding method is designed to capture the short-term temporal changes of point clouds driven by the motion of objects in each voxel. Second, a long-term motion-guided bird's eye view (BEV) feature enhancement method is also proposed to adaptively align and aggregate the BEV feature maps obtained by the short-term voxel encoding by utilizing the dynamic motion context inferred from the sequence of the feature maps. The experiments conducted on the nuScenes benchmark demonstrate that the proposed 3D object detector offers significant improvements in performance compared to the baseline methods and that it sets a state-of-the-art performance for certain 3D object detection categories. Lastly, a novel multi-view 3D video object detection algorithm is proposed. The proposed model adopts the long-term recurrent fusion strategy to leverage the richness of long-term information and the efficiency of the temporal fusion pipeline. The proposed temporal fusion model generates robust BEV features by aligning and aggregating the features obtained from consecutive multi-view video frames. The previous BEV feature is aligned to the current BEV feature using the motion of the ego-vehicle and the motion context information of the surrounding objects. Then, the aligned BEV feature is aggregated with the current feature through a gated attention mechanism. The experiments conducted on the nuScenes benchmark show that the proposed method dramatically improves the performance of a single frame-based baseline and significantly outperforms the latest multi-view camera-based 3D object detectors.
URI
http://hanyang.dcollection.net/common/orgView/200000723135https://repository.hanyang.ac.kr/handle/20.500.11754/188276
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > ELECTRICAL ENGINEERING(전기공학과) > Theses (Ph.D.)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE