474 0

딥러닝 기반 영상 인식 통합 구조 및 라이다 고해상화 알고리즘

Title
딥러닝 기반 영상 인식 통합 구조 및 라이다 고해상화 알고리즘
Other Titles
Deep Learning based Integrated Visual Perception Architecture and LiDAR Super Resolution
Author
김민정
Alternative Author(s)
Minjung Kim
Advisor(s)
허건수
Issue Date
2022. 2
Publisher
한양대학교
Degree
Master
Abstract
안정적인 자율주행을 수행하기 위해서는 정확한 상황판단을 위해 신뢰할 수 있는 정보를 제공하는 인지의 역할이 중요하다. 인지 분야 중에서도 최근 딥러닝 네트워크를 이용해 도로 위의 다양한 상황들을 인지하는 연구가 활발히 진행되고 있다. 카메라의 경우 이미지는 많은 정보를 담고 있어 데이터 처리가 느리다는 단점이 있다. 또한, 깊이 정보가 포함되어 있지 않아 3차원의 위치 정보를 표현하기 어렵고, 물체의 종류를 예측할 수 없다. 따라서 본 논문에서는 딥러닝 기반 통합 알고리즘을 이용해 물체 인식, 깊이 추정, 시맨틱 분할을 진행한다. 공유 인코더-분기 디코더 구조로 높은 성능을 달성하고 계산 시간을 단축했으며, 양방향 피라미드 구조의 인코더로 해상도에 강인한 인식 알고리즘을 설계했다. 그 결과 타 논문과 비교했을 때 비슷한 성능을 가지면서 메모리 사용량을 7~30배가량 단축했다. 라이다의 경우는 멀리 있는 물체를 정교하게 인식하기 위해서 고채널의 라이다 센서가 필요하지만, 라이다의 채널이 많아질수록 비용이 기하 급수적으로 증가한다는 문제점이 있다. 본 논문에서는 이를 해결하기 위해 멀티 스케일 Generative Adversarial Network를 제안한다. 피라미드 구조의 네트워크를 통해 저채널의 라이다로 고채널의 라이다 특징을 효율적으로 모사할 수 있도록 했다. 이는 선형, 이차 보간한 포인트 클라우드 대비 약 7% 정도 오차를 줄인 것을 확인했다. |In order to perform stable autonomous driving, the role of perception that provides reliable information for accurate situation judgment is important. Among the perception studies, research has recently been actively conducted to understand various situations on the road using deep learning networks. In the case of cameras, data processing is relatively slow due to dense information of images. Since camera is unable to measure depth, it is difficult to express three-dimensional location information. In addition, the class of object cannot be detected. Therefore, in this paper performs object detection, depth estimation, and semantic segmentation using a deep learning-based integrated algorithm. High performance and efficient memory usage is achieved with a shared encoder-branched decoder structure. Proposed algorithm is robust in resolution of an image on account of a bidirectional pyramid structured encoder. As a result, it has reduced memory usage by 7 to 30 times while having similar performance compared to other papers. In the case of LIDAR, a high-channel LiDAR is necessary to precisely detect distant objects. However, a problem exists that the cost increases exponentially as the number of channels of the lidar increases. This paper proposes a multi-scale General Adversarial Network to solve this problem. Through a pyramid-structured network, a high-channel LiDAR is generated from low-channel LiDAR. The Network effectively copies features of higher channel LiDAR. Performance of the network is verified that the error was reduced by about 7% compared to the linear and bilinear interpolated point cloud.
URI
http://hanyang.dcollection.net/common/orgView/200000590917https://repository.hanyang.ac.kr/handle/20.500.11754/168142
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > AUTOMOTIVE ENGINEERING(미래자동차공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE