64 0

이상점 제거를 이용한 3차원 그래프 컨볼루션 네트워크기반 물체 자세 추정

Title
이상점 제거를 이용한 3차원 그래프 컨볼루션 네트워크기반 물체 자세 추정
Other Titles
3D Graph Convolution Network Based Object Pose Estimation Using Outlier Removal
Author
최성진
Alternative Author(s)
sungjin choi
Advisor(s)
김태현
Issue Date
2024. 2
Publisher
한양대학교 대학원
Degree
Master
Abstract
한 이미지 내에서 객체들과의 상호작용을 위해 자세를 추정하는 것은 VR(Virtual Reality), MR(Mixed Reality), 로보틱스 등의 분야에서 중요하게 사용되고 있다. 정해진 객체에 대해서 자세를 추정하는 instance-level object pose estimation은 물체의 다양성을 고려하지 않아 실생활에 응용하기가 쉽지않다. 이러한 문제를 해결하기 위해 category-level object pose estimation이 제안되었다. 초기에는 object 좌표계로 정렬된 객체의 CAD모델을 정규화한 후 포인트별로 좌표에 맞게 고유한 색을 부여하고 GT pose로 이미지에 projection시켜 만든 NOCS(Normalized Object Coordinate Space) map을 학습시키는 방식을 사용했다. RGB이미지를 통해 NOCS map을 예측하고 이를 통해 자세를 추정하는 방식이 사용되었지만 RGB 단일 이미지로는 물체의 기하학적 구조를 파악하기에는 어려웠으며 모양의 다양성을 반영하지 못해 몇몇 카테고리에서는 성능이 매우 떨어지는 문제가 있었다. 따라서 기하학적 구조를 효과적으로 학습시킨 3D GCN을 통해 이러한 문제를 해결하였다. 3D GCN에서는 2D CNN에서 컨볼루션 연산시의 이웃픽셀 선정방식을 유클리디안 거리상 가까운 근처 이웃에 대해 커널 포인트를 설정한다. 또 2D CNN에서의 커널을 정규화된 3D 방향벡터로 설정하여 3D 컨볼루션연산을 통해 기하학적구조를 파악한다. 이러한 방식을 통해 모양에 대해 큰 variance를 가진 카테고리에서도 회전 정확도가 크게 향상되었다. 그러나 depth 카메라의 성능에 따라 depth이미지 내의 물체 가장자리에 노이즈가 발생하거나 측정이 안되는 문제로 인해 3D GCN의 연산에 방해가 되는 경우가 많았다. 본 논문에서는 이러한 문제를 해결하기 위해 이상점을 제거함으로써 회전에 대한 강건한 모델을 제안하였다. 각 객체 별로 포인트클라우드의 평균과 표준편차를 이용해 z-value를 구하고 일정 임계점보다 클 경우 이상점으로 분류하여 제거하는 방식을 통해 모든 카테고리에 대해 이상점을 분류, 제거하였다. 또한 포인트클라우드를 사용할 경우 색에 대한 정보가 없어 기하학적 대칭 물체에 대해 회전의 오차가 생기는 문제가 발생하는데 RGB feature fusion을 통해 해결하였다. ResNet과 PSPNet을 이용하여 각 객체 및 포인트별로 feature vector를 추출하였으며 이를 포인트클라우드에 concatenate 및 3D GCN 연산에 포함시킴으로써 대칭 객체에 대한 회전 오차를 줄였다. 각 객체별로 회전 오차에 따른 포인트클라우드 간의 코사인 유사도를 통해 feature fusion의 효용성을 증명하였으며 회전에 대한 성능이 향상되었다. 제안한 방법은 배경과 객체가 함께 영역분할되어있을 때 이상점을 제거함으로써 불필요한 GCN 연산을 하지 않고 기하학적 선대칭, 점대칭 물체에 대해 RGB 제약조건을 주는 모델을 제안함으로써 회전에 대해 강건한 방법을 연구하였다.|6 DoF object pose estimation within an image is important in fields such as VR (Virtual Reality), MR (Mixed Reality), and robotics. Instance-level object pose estimation, which aims to estimate the pose of a specific object, faces challenges in real-world applications due to its limited consideration of object diversity. To solve this problem, category-level object pose estimation has been proposed. The initial approach was to train a NOCS (Normalized Object Coordinate Space) map, which is created by normalizing a CAD model of an object aligned with the object coordinate system, then coloring each point uniquely according to its coordinates and projecting it onto an image in GT pose.Initially, a method of predicting NOCS maps through RGB images and estimating pose is used, but using single RGB images for pose estimation is challenging task due to lack of geometric information and did not reflect the diversity of shapes, so performance is very poor in some categories like camera. Therefore, methods that effectively learned geometric structures through depth images and 3D GCN solved this problem. By setting kernel points for nearby neighbors and identifying geometry through 3D kernel vectors, rotation accuracy has increased significantly in categories with large variations in shape. However, depending on the performance of the depth camera, noise is often generated at the edge of the object in the depth image or the problem of not being measured, which often interfered with the calculation of 3D GCN. In this paper, we propose a robust model for the rotation of 3D GCN by eliminating outliers to solve this problem. The z-value is obtained using the average and standard deviation of the point cloud for each object, and outliers were classified and removed for all categories by classifying them as outliers if they were larger than a certain threshold. In addition, when using the point cloud, there is no information on color, resulting in an error in rotation for geometric symmetrical objects, which is solved through RGB feature fusion. Feature vectors were extracted for each object and point using ResNet and PSPNet, and rotation errors for symmetric objects were reduced by including them in the point cloud. The effectiveness of feature fusion is proved through cosine similarity between point clouds according to rotation error, and the performance of rotation is higher than previously proposed methods. The proposed method does not perform unnecessary 3D GCN operations by removing outliers when the background and object are segemented together. It is also robust method for rotation by proposing a model that imposes RGB constraints on symmetric objects.
URI
http://hanyang.dcollection.net/common/orgView/200000720786https://repository.hanyang.ac.kr/handle/20.500.11754/188350
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > DEPARTMENT OF INTELLIGENCE AND CONVERGENCE(지능융합학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE