293 0

Robot Manipulation Task Planning for Obstacle Rearrangement in Clutter Using Policy Gradient Method

Title
Robot Manipulation Task Planning for Obstacle Rearrangement in Clutter Using Policy Gradient Method
Other Titles
Policy Gradient 방법을 이용한 복잡환경에서의 장애물 재배치 로봇 조작 계획
Author
SeungHyun Kang
Alternative Author(s)
강승현
Advisor(s)
서태원
Issue Date
2022. 8
Publisher
한양대학교
Degree
Master
Abstract
ABSTRACT This thesis presents a robot manipulation task planning methodology for obstacle rearrangement in a cluttered environment using a policy gradient method, one of the reinforcement learning methods. Recent advances in service robots have led to the development of manipulator-attached robots. However, most of these robots may lack a strict task planner to grasp the target object in various environments. In particular, in a cluttered environment where other objects surround the target object, the robots require an efficient algorithm to rearrange the obstacles that blind the target object. Therefore, the service robot needs object recognition skills, task planning to grasp a target object, and motion planning and control to operate a manipulator to execute the task. The thesis focuses on learning the task planning of the manipulator to grasp the target object by selecting obstacles to be removed and determining the relocation position of the removed obstacles simultaneously. Former studies, using search algorithms, return a solution, but the algorithms have to explore each node even if the given environment is similar. However, in this thesis, similar answers can be found in a similar environment in a short time by learning the various environment data. Another former research uses Deep Q Network (DQN) algorithm, which is familiar in reinforcement learning. Since the DQN algorithm uses a discrete environment as a grid, it is difficult to apply in a real-world environment. However, the thesis uses continuous space such as refrigerators, shelves, and tables to consider the real-world environment. The obstacle rearrangement task planning problem has two distinct characteristics: determining which obstacles to remove and where to relocate the obstacles. The former determines the discrete problem, and the latter determines a position in a continuous space. The thesis uses a hybrid Soft Actor-Critic (SAC) algorithm to consider the two different characteristics. The hybrid SAC algorithm determines the discrete and continuous values simultaneously by sharing the hidden layer of the actor. The thesis has two improvements for a reinforcement learning agent. First, when the agent determines which obstacle to remove, the agent assigns numbers to the obstacles in the order of the shortest distance between the obstacles and the robot. Second, the agent uses an improved reward function by dividing an action into grasping an obstacle action and relocating an obstacle action. The thesis uses OpenAI Gym for a reinforcement learning environment. Also, the thesis uses FRANKA EMIKA’s 7-DOF Panda manipulator and ROBOTIQ’s 2F-85 gripper for the simulation. The Open Motion Planning Library (OMPL) is used for the motion planning of the manipulator. As a simulation result, the agent shows up to of the success rate of the obstacle rearrangement task. Also, the agent trained by improved reward function shows a maximum of higher than before. |국문 요지 이 논문에서는 강화학습 방법의 하나인 policy gradient 방법을 이용하여 복잡환경에서의 장애물 재배치를 위한 로봇 작업계획 방법을 제시하였다. 최근 머니퓰레이터가 장착된 서비스 로봇들이 발전하고 있어, 다양한 환경에서 목표 물체를 잡기 위한 로봇의 세심한 작업계획이 요구된다. 특히, 목표 물체가 다른 물체들과 같이 있는 복잡환경에서는 목표 물체를 가린 다른 물체, 즉 장애물들을 재배치하는 행동이 필요하다. 이를 위해 서비스 로봇은 물체들을 인식하고, 목표 물체를 잡기 위한 작업을 계획하여야 하며, 작업계획을 실행하기 위한 머니퓰레이터의 동작 계획과 제어가 필요하다. 이 논문에서는 목표 물체를 잡기 위해서 머니퓰레이터가 치울 장애물들을 선정하는 것과 장애물들을 옮겨놓는 위치를 선정하는 작업계획을 학습하는 것에 초점을 맞추었다. 탐색 알고리즘을 사용한 기존의 장애물 재배치 작업계획의 경우 비슷한 환경이 주어진 경우에도 매번 탐색을 진행하기 때문에 시간이 요구된다. 하지만, 이 연구에서는 다양한 환경에 대한 데이터를 학습함으로써 비슷한 환경에서 유사한 답을 단시간에 찾을 수 있다. 강화학습을 사용한 기존의 장애물 재배치 작업계획 연구에서는 Deep Q Network(DQN) 알고리즘을 사용하였다. DQN 알고리즘은 환경을 그리드화하여 사용하므로 실제 환경에서의 적용에 어려움이 많다. 이 연구에서는 그리드를 사용하지 않고 냉장고, 선반, 테이블과 같은 연속 환경 공간에 적용할 수 있는 알고리즘을 사용하였다. 장애물 재배치 작업계획은 여러 장애물 중 어떤 장애물을 치울지 결정하는 것과 해당 장애물을 어디로 옮겨놓을지 결정해야 하는 두 가지 서로 다른 특성이 있다. 여러 장애물 중 어떤 장애물을 치울지 결정하는 것은 이산화 문제를 푸는 것이고, 해당 장애물을 어디로 옮겨놓을지 결정하는 것은 연속 환경 공간에서 위치를 정하는 문제이다. 이를 위해 hybrid Soft Actor-Critic(SAC) 알고리즘을 사용하였다. Hybrid SAC 알고리즘은 이산화 문제와 연속 환경 공간에서의 위치 문제를 동시에 고려하기 위해 actor의 hidden layer를 공유하여 두 문제의 해를 결정한다. 이 연구에서는 강화학습 에이전트의 학습을 위해 두 가지 개선사항을 반영하였다. 첫 번째로, 학습 에이전트가 어떤 장애물을 치울지 선택할 때, 장애물과 로봇 사이의 거리가 짧은 순서대로 번호를 부여하여 사용하였다. 두 번째로, 학습 에이전트의 액션을 장애물을 잡는 행동과 장애물을 옮기는 행동으로 구분하여 개선된 보상함수를 제시하였다. Policy gradient 방법을 위해 OpenAI Gym을 통해 강화학습 환경을 구성하였다. FRANKA EMIKA의 7축 머니퓰레이터 Panda 로봇과 ROBOTIQ의 2F-85 그리퍼를 사용하였다. 머니퓰레이터의 동작 계획을 위해 Open Motion Planning Library(OMPL)를 사용하였다. 시뮬레이션 결과, 학습된 에이전트는 최대 의 장애물 재배치 태스크 성공률을 보였다. 에이전트의 액션을 구분한, 개선된 보상함수를 사용하여 학습한 에이전트의 경우, 최대 더 높은 태스크 성공률을 보였다.
URI
http://hanyang.dcollection.net/common/orgView/200000623474https://repository.hanyang.ac.kr/handle/20.500.11754/174572
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > MECHANICAL CONVERGENCE ENGINEERING(융합기계공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE