485 0

로봇 파지를 위한 효과적인 심층 지도학습 및 강화학습

Title
로봇 파지를 위한 효과적인 심층 지도학습 및 강화학습
Other Titles
Effective deep supervised learning and reinforcement learning for robotic grasp
Author
김병완
Alternative Author(s)
Kim Byung Wan
Advisor(s)
정제창
Issue Date
2022. 2
Publisher
한양대학교
Degree
Doctor
Abstract
In the field of robotic grasp, researchers have made significant advances in an unorganized environment without an accurate model of the grasping target using supervised learning or reinforcement learning based on deep neural networks. However, considerable time and effort are required to obtain large amounts of training data. Therefore, this study proposes an effective deep neural-network-based supervised learning method and an effective deep neural-network-based reinforcement learning method to improve robotic grasp performance under the same data and environment. The effective robotic grasp method based on deep supervised learning classifies the motion model into approaching and grasping the target object and uses each input as an attentive image. To generate attentive images, this study used the semantic segmentation model with the recurrent top-down information transfer layers added to SegNet to improve the performance while maintaining real-time performance. This recurrent top-down information transfer applies to all layers of the encoder and decoder of SegNet, which enables the information of the upper layer to be effectively utilized for constructing the lower layer. Using the image information composed of this advanced semantic segmentation model, it is possible to create a more focused image of the target object. After training the sub-action models in various ways, the robotic grasp was performed as the classification motion with the highest performance. Each motion model used an attentive image as input using a head camera positioned above the robot and a wrist camera. The output of the motion network is the output value obtained using the mixture density network (MDN) for the amount of change in the six-dimensional robot joint angle that should move at the current position, and it learns to correspond to multiple grasp points for one input image. In addition, there are three different models to perform robotic grasp with no separate motion, two-divided action, and three separate actions. This study compared the grasping success rates of these three action models. Consequently, the methods suggested by the two separate motions of approaching and grasping exhibited the highest grasping performance. An effective robotic grasp method based on deep reinforcement learning uses dynamics prediction networks (DPN) for training, which learns features that accurately predict physical interactions. In general, when the training data is insufficient, the training data may have a bias, but the dynamics prediction network forces it to learn the physical properties at the time of success so that the lower-biased features learn in the biased training data. The baseline model, visual pushing for grasping (VPG), has a different feature extraction neural-network structure for each primitive action. However, the features of the physical interaction proposed in this study can be used for both grasping and pushing actions. Therefore, parameter sharing in the feature extractor network encoder was used to reduce the size of the entire network. Finally, it was confirmed that the proposed methods showed excellent performance by comparing the grasping success rate with that of the model that did not use DPN training in the same environment. This study enables more accurate and effective robot grasp learning through detailed supervised learning and reinforcement learning in an appropriate direction. Furthermore, semantic segmentation using top-down information transfer, supervised learning methods for each classifying action, and dynamics prediction network for reinforcement learning can be used for various network learning to improve performance. To learn more effectively, research should be conducted to generalize the concentration of learning information and the learning direction. In particular, domain randomization and domain adaptation methods using a virtual environment, and methods using a prototypical model of the object grasping will produce more effective learning results, along with the proposed methods.|로봇 파지 분야에서 연구자들은 심층 신경망 기반 지도학습 또는 강화학습을 활용하여 파지 대상의 정확한 모델이 없는 정돈되지 않은 환경에서 상당한 발전을 이루었다. 그러나 학습에 필요한 대량의 데이터를 얻기 위해 엄청난 시간과 노력이 요구된다. 따라서 본 연구는 동일 데이터와 동일 작업 환경에서 로봇 파지 성능을 향상하기 위한 효과적인 심층 신경망 기반 지도학습과 효과적인 심층 신경망 기반 강화학습 방법을 각각 제안한다. 심층 지도학습 기반 효과적인 로봇 파지 방법은 다가가기와 물체 파지로 동작 모델을 구분하고 각각의 입력을 집중 이미지로 사용한다. 본 연구에서는 집중 이미지를 생성하기 위해 세그넷(SegNet)에 순환식 하향 정보 전달 계층을 추가한 영상 분할 모델을 활용하여 실시간성을 유지하면서 성능을 향상했다. 이러한 순환식 하향 정보 전달은 세그넷의 인코더와 디코더의 모든 계층에 적용되며 이는 상위 계층의 정보를 하위 계층의 구성에 효과적으로 활용할 수 있도록 한다. 이러한 향상된 심층 영상 분할 모델로 구성한 영상 정보를 이용하여 좀 더 대상 물체에 초점을 맞춘 이미지 생성이 가능해진다. 본 연구는 다양한 방식으로 로봇 파지를 위한 구분 동작 모델을 학습한 후 가장 높은 성능을 갖는 구분 동작으로 파지 동작을 수행한다. 각각의 동작 모델은 로봇의 위쪽에 자리 잡은 천장 카메라와 손목 카메라를 이용한 집중 이미지를 입력으로 한다. 동작 네트워크의 출력은 현 위치에서 움직여야 할 6차원의 로봇 관절각의 변화량을 혼합 밀도 신경망(the mixture density network, MDN)을 활용하여 출력한 값으로, 하나의 입력 이미지에 대한 다수의 파지 포인트에 대응하도록 학습한다. 또한 본 연구에서는 구분 동작 없이 로봇 파지를 수행하는 모델, 두 구분 동작 모델, 그리고 세 개의 구분 동작으로 로봇 파지를 수행하는 모델을 각각 학습한다. 이 세 가지 행동 모델의 파지 성공률을 비교하였으며 결과적으로 다가가기와 파지하기의 두 구분 동작과 제안된 방법들을 활용하여 가장 높은 파지 성능을 보였다. 심층 강화학습 기반 효과적인 로봇 파지 방법은 물리적인 상호작용을 잘 예측하는 특징을 배울 수 있는 동역학 예측 네트워크(Dynamics Prediction Networks, DPN)를 학습에 활용하는 것이다. 일반적으로 학습 데이터가 충분하지 않을 때 학습 데이터는 편향성(bias)을 가질 수 있으나 동역학 예측 네트워크는 성공 시의 물리적 특성을 학습하도록 강제하여 편향성을 갖는 학습 데이터에서 비교적 낮은 편향성을 가진 특징을 학습하도록 한다. 본 연구에서 차용한 VPG(Visual Pushing for Grasping) 모델은 각각의 기초 동작마다 특징 추출 신경망 모델인 인코더를 가지고 있다. 그러나 제안하는 물리적 상호작용 특징은 파지 동작과 밀기 또는 비파지 동작에서 모두 활용할 수 있다. 따라서 두 특징 추출 신경망을 매개변수 공유(parameter sharing)하고 전체 네트워크의 크기를 축소한다. 제안하는 방법들은 동일 환경에서 제안하는 방법을 사용하지 않은 모델과 파지 성공률을 비교하여 뛰어난 성능을 보임을 확인하였다. 본 연구는 이처럼 세밀한 지도학습과 적절한 방향성을 가지는 강화학습을 통해 정확성이 높고 효과적인 로봇 파지 학습을 가능하게 한다. 하향식 정보 전달을 이용한 의미적 영상 분할, 지도학습에서의 여러 가지 구분 동작 별 학습 방법들, 그리고 동역학 예측 네트워크를 활용한 강화학습은 성능 향상을 기대하는 다양한 네트워크 학습에 사용이 가능하다. 앞으로 더욱 효과적인 학습을 위하여 학습 정보의 집중과 학습 방향성을 설정하는 과정을 일반화시키는 연구가 진행되어야 할 것이다. 특히 가상환경을 활용한 도메인 임의추출(domain randomization)과 도메인 적응(domain adaptation) 방식들 그리고 파지 대상 물체에 대한 원형 모델(prototypical model)을 활용한 방법들은 제안하는 방법과 함께 좀 더 효과적인 학습 결과를 보여줄 것으로 기대한다.
URI
http://hanyang.dcollection.net/common/orgView/200000592529https://repository.hanyang.ac.kr/handle/20.500.11754/167467
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > INTELLIGENT ROBOT ENGINEERING(지능형로봇학과) > Theses (Ph.D.)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE