174 0

Omnidirectional Stereo Matching Algorithm for Wide-baseline Multi-camera Systems

Omnidirectional Stereo Matching Algorithm for Wide-baseline Multi-camera Systems
Alternative Author(s)
Issue Date
2022. 2
Autonomous robots and cars operating in the real-world need to sense the surrounding environmental structure in 3D. In this thesis, we introduce a novel end-to-end network architecture for omnidirectional depth estimation from a wide-baseline multi-view stereo setup. The images captured with ultra-wide field-of-view cameras on an omnidirectional rig are processed by the feature extraction module, and then the deep feature maps are warped onto the concentric spheres swept through all candidate depths using the calibrated camera parameters. The 3D encoder-decoder block takes the aligned feature volume to produce a matching probability volume with regularization on uncertain regions utilizing the global context information. We calculate entropy of the probability volume as the uncertainty of depth estimation and propose an uncertainty prior guidance in two ways: depth map filtering and guiding regularization. In addition, we integrate our depth estimates into the visual localization and fuse them into the truncated signed distance function (TSDF) volume to acquire a 3D map. We also present large-scale synthetic datasets for training and testing omnidirectional multi-view stereo algorithms. Our datasets consist of 13K ground-truth depth maps and 53K fisheye images in four orthogonal directions with various objects and environments. Experimental results show that the proposed method generates excellent results in both synthetic and real-world environments, and it outperforms the prior art and the omnidirectional versions of the state-of-the-art conventional stereo algorithms.|주변 환경에 대한 3차원 구조 정보는 자율 주행 차량이나 로봇에게 요구되는 중요한 정보이다. 본 논문에서는, 넓은 베이스라인(baseline)을 갖는 다시점 스테레오 카메라 시스템으로부터 전방향 깊이 추정을 수행하는 심층 신경망 모델을 소개한다. 전방향 거리 추정을 위해, 초광각 어안렌즈 카메라로 촬영한 영상에서 특징 추출 모듈을 통해 특징 맵을 추출하고, 추출 된 특징 맵은 카메라 파라미터를 기반으로 리그를 중심으로 거리 후보군을 반지름으로 하는 가상의 동심원에 투영된다. 3차원 인코더-디코더(3D encoder-decoder)는 구면에 정렬된 특징 볼륨에서 불확실한 영역에 대해 전역 컨텍스트 정보(global context information)를 이용한 정규화(regularization)를 수행하며, 전방향 깊이 추정에 대한 정합 확률 볼륨을 계산한다. 이 때, 확률 볼륨의 엔트로피(entropy)를 계산하여 불확실성을 측정하고 보다 정확한 거리 추정을 위해, 거리 추정 필터링(depthmap filtering)과 유도 정규화(guiding regularization)의 두 가지 방법으로 불확실성 가이드(uncertainty prior guide) 방법을 제안한다. 또한, 우리는 추정된 거리를 영상 기반 측위(visual localization) 모듈에 통합하고, 이를 바탕으로 TSDF(truncated signed distance volume) 볼륨 기반의 3차원 전역 지도를 생성한다. 더 나아가, 다시점 기반의 전방향 스테레오 알고리즘의 학습 및 테스트를 위한 대량의 가상 환경 데이터 세트도 제공하며, 제공되는 데이터 세트는 다양한 객체와 환경에 대해 13,000 장의 거리 실측 정보(ground-truth depth map)와 53,000 장의 어안렌즈 영상을 포함한다. 본 논문의 가상 및 실제 환경 데이터에 대한 실험 결과에 따르면, 제안하는 방법은 우수한 전방향 거리 추정 결과를 생성하며, 전방향 스테레오에 대한 선행 기술보다 그 성능이 뛰어나다.
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE(컴퓨터·소프트웨어학과) > Theses (Ph.D.)
Files in This Item:
There are no files associated with this item.
RIS (EndNote)
XLS (Excel)


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.