93 0

Robust 3D Voxel Object Reconstruction from Noisy Image

Title
Robust 3D Voxel Object Reconstruction from Noisy Image
Author
견민수
Alternative Author(s)
Minsu Kyeon
Advisor(s)
Jong-II Park
Issue Date
2024. 2
Publisher
한양대학교 대학원
Degree
Master
Abstract
최근 가상현실과 증강현실 분야에 대한 관심이 급증하면서, 영상으로부터 3차원 모델을 복원하는 3차원 복원 기술의 중요성이 더욱 부각되고 있다. 이 기술은 영상에 포착된 개체의 형상을 3차원 모델로 복원하는 데 중점을 둡니다. 전통적인 컴퓨터 비전 방법은 다수의 시점에서 촬영된 영상들을 활용하여 특징점을 일치시키고, 삼각측량법을 사용해 3 차원 형상을 복원한다. 하지만, 이러한 방법은 다수의 이미지 간 특징점 추출 및 대응 관계 설정이 복잡한 단점이 있다. 최근 딥러닝 기술의 발전으로 영상 기반 3차원 복원 분야가 크게 발전했다. 딥러닝 방법은 기존 컴퓨터 비전 방식에 비해 제약이 적으며 더 정확한 복원 성능을 보인다. 딥러닝을 통한 3차원 복원에서는 복셀이 대표적인 3차원 표현 방식으로 사용된다. 복셀은 2차원 영상의 픽셀과 유사하게 각 그리드마다 점유 여부와 색상 정보를 담고 있다. 이러한 간단한 구조 덕분에 복셀은 현실 세계의 개체를 보다 정확 하게 모델링하고, 시각적으로 자연스러운 표현이 가능하다. 실제 산업 환경에서 영상으로부터 3차원 복원의 성능을 저하시키는 주요 요인으로는 영상의 시점과 다양한 노이즈가 있다. 여러 시점의 영상이 많을수록 딥러닝 모델의 성능이 향상되지만, 이를 구축하는 것은 시간과 노력이 많이 소요된다. 또한, 실제 환경에서 얻은 영상은 측정 장비의 한계와 환경적 요인으로 인해 폐색 및 흐림과 같은 다양한 노이즈에 노출된다. 이러한 노이즈는 3차원 복원 과정에 부정적인 영향을 미친다. 본 논문에서는 단일 영상 및 노이즈가 있는 환경에서의 3차원 복원에 초점을 맞추어, 이러한 문제를 해결하기 위한 새로운 연구 방향을 제안한다. 본 논문에서 첫 번째로 제안하는 방법은 Neural Radiance Fields(NeRF)를 활용하여 영상 내의 폐색 영역에 강인한 방식으로 3차원 복셀을 복원하는 것이다. 기존의 RGB 영상을 활용한 딥러닝 접근법은 3차원 복셀 형상을 학습하는 과정에서 훈련 데이터에 특정한 범주에 제한되는 경향이 있다. 이는 영상 내에 폐색 영역이 존재하는 경우, 3차원 복셀로의 복원을 어렵게 만든다. 이러한 문제를 해결하기 위해, NeRF 방법을 통해 새로운 시점을 생성하고, 이를 3D-CNN Layer와 결합하여 3차원 복셀 복원을 수행한다. 두 번째로 제안하는 방법은 영상 속에 흐림 영역에 대해 보다 강인한 3차원 복셀 복원을 위한 병렬 신경망 네트워크를 제안한다. 실제 환경에서의 다양한 요인으로 발생할 수 있는 흐림 영상을 통해 3차원 복셀로 복원하는 것은 쉽지 않다. 이러한 문제를 해결하기 위해, 흐림의 다양한 크기와 방향의 패턴을 추출하여 제거할 수 있는 Deblur Layer를 제안한다. 이는 영상을 수평 및 수직 스트립으로 분할하고, 스트립 간의 복잡한 관계를 학습 하여 blur를 제거한다. 흐림을 제거하는 Deblur Layer와 3차원 복셀 복원을 위한 3D-CNN Layer를 결합한 End-to-End 구조를 통해 흐린 영상을 제거하면서 동시에 3차원 복셀을 복원을 수행한다. 세 번째로 제안하는 방법은 Masked Auto Encoder(MAE)방법을 활용하여 영상 내의 폐색 영역과 흐림 영역이 동시에 존재하는 상황에서 3차원 복셀 복원 방법을 제안한다. 영상에 폐색과 흐림이 동시에 나타나는 경우, 이 두 가지 서로 다른 특성을 가진 노이즈로 인해 3차원 복셀 복원하는 것은 쉽지 않다. 이러한 문제를 해결하기 위해, 영상의 일부를 마스킹하고 MAE 방법을 적용하여 해당 부분을 복원하는 동시에, 데이터 증강을 통해 흐림 영역을 추가함으로써 보다 정확한 3차원 복셀 복원을 수행한다. 실험 결과, 이 세 가지 방법은 기존 방법들에 비해 우수한 3차원 복셀 복원 성능을 보여주었다. 특히 실제 환경에서 발생하기 쉬운 폐색 및 흐림 문제에 대한 강인한 성능을 입증하였으며, 이는 가상현실, 증강현실, 자율 주행 차량 등 다양한 실제 산업 분야에 적용할 수 있음을 보여준다. 이러한 연구 결과는 3차원 복셀 복원 분야에 중요한 기여를 하며, 관련 산업의 발전에 크게 기여할 것이다.|Recently, with the rapid increase in interest in the fields of virtual reality and augmented reality, the importance of 3D reconstruction technology, which restores 3D models from images, has become more prominent. This technology focuses on reconstructing the shape of objects captured in images into 3D models. Traditional computer vision methods utilize images captured from multiple viewpoints to match features and employ triangulation to reconstruct 3D shapes. However, these methods have the complexity of extracting and correlating feature points across multiple images. With the advancement of deep learning technology, image-based 3D reconstruction has significantly improved. Deep learning methods show more accurate reconstruction performance with fewer constraints compared to conventional computer vision techniques. In deep learning-based 3D restoration, voxels are a primary representation technique. Similar to pixels in 2D images, each grid in a voxel contains occupancy and color information. Due to its simple structure, voxels can more accurately model real- world objects and provide visually natural representations. In the actual industrial environment, two main factors degrade the performance of 3D reconstruction from images: the viewpoint of the image and various noises. The more images from different viewpoints are available, the more accurate the deep learning model becomes. However, building such multi-view image datasets is time- consuming and challenging. Moreover, images obtained in real environments are exposed to various noises such as occlusions and blurring due to the limitations of measurement equipment and environmental factors. These noises negatively impact the 3D reconstruction process from images. This paper focuses on 3D reconstruction from single and noisy images, proposing new research directions to solve these issues. Firstly, we propose a method using Neural Radiance Fields (NeRF) for robust 3D voxel reconstruction in images with occlusion areas. Deep learning approaches using conventional RGB images tend to be limited to specific categories in the training data, making it difficult to reconstruct 3D voxels in images with occlusion areas. To address this, we generate new viewpoints using the NeRF method and combine it with a 3D- CNN Layer for effective 3D voxel reconstruction. Secondly, we propose a parallel neural network designed for more robust 3D voxel reconstruction in blurred areas of images. Restoring 3D voxels from images blurred due to blurred regions through data augmentation for more accurate 3D voxel reconstruction. various factors in real environments is challenging. To overcome this, we suggest a Deblur Layer capable of extracting and eliminating patterns of blur in various sizes and directions. This method divides the image into horizontal and vertical strips and removes blur by learning the complex relationships between the strips. By integrating the Deblur Layer for blur removal with a 3D-CNN Layer for voxel reconstruction, we achieve the simultaneous removal of blur and restoration of 3D voxels in an end-to-end structure. Thirdly, we propose a 3D voxel reconstruction method using Masked Auto Encoder (MAE) in situations where images contain both occlusion and blurring areas simultaneously. Reconstructioning 3D voxels in images with both occlusion and blurring, which are different types of noise, is not straightforward. To overcome this, we partially mask the images and apply the MAE method to reconstruct these areas while adding Experimental results demonstrate that these three methods show superior 3D voxel reconstruction performance compared to existing methods. Especially, they prove robust against common problems like occlusion and blurring in real-world environments, indicating their applicability in various actual industrial fields such as virtual reality, augmented reality, and autonomous vehicles. These results contribute significantly to the field of 3D voxel reconstruction and are expected to greatly advance related industries.
URI
http://hanyang.dcollection.net/common/orgView/200000724291https://repository.hanyang.ac.kr/handle/20.500.11754/188368
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE(컴퓨터·소프트웨어학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE