420 0

움직이는 물체의 경로 예측을 이용한 DeepRL기반 동적 물체 추종

Title
움직이는 물체의 경로 예측을 이용한 DeepRL기반 동적 물체 추종
Other Titles
DeepRL-based dynamic target following by path prediction of moving object
Author
서대현
Alternative Author(s)
Seo, Dae Hyun
Advisor(s)
서일홍
Issue Date
2019-02
Publisher
한양대학교
Degree
Master
Abstract
공항 같은 복잡한 실내 환경에서 추종하는 사람이 다른 사람이나 물체에 의해 관측이 되지 않거나 주변에 움직이는 사람 또는 물체에 의해 충돌이 발생할 수 있으므로 복잡한 환경에서 지정된 사람을 추종하는 것은 어렵다. 또한, 오래전부터 연구가 진행된 모델기반의 플레닝 방법으로는 복잡한 실내 환경에서 모든 것을 정의하고 대처하기에는 한계가 있다. 그래서 본 논문에서는 복잡한 상황에서 잘 추종할 수 있게 경로예측 모델과 심층 강화학습(Deep Reinforcement Learning)을 이용하여 극복해보려고 한다. 본 논문에서는 복잡한 실내 환경에서 지정된 사람을 추종하는 방법을 제안한다. 거리 센서와 예측된 경로 정보를 이용하여 생성된 현재와 미래의 예측 된 그리드 맵을 바탕으로 충돌 위험도를 표현하는 히스토그램을 만들어 낸다. 이 히스토그램과 자신의 상태(속도, 각속도, 크기), 추종하는 사람의 이동 경로 정보를 사용하여 심층 강화학습으로 푸는 방법을 제안한다. 사람 추종 방법을 심층 강화학습으로 풀기 위한 학습 환경과 보상 함수를 제시하고 학습의 효율과 성능을 위한 D3QN 모델, 출력층의 특징을 제시한다. 그리고 심층 모델에서의 한계점인 입력에 따라 모델이 달라지는 한계점을 충돌 위험도를 표현한 히스토그램으로 극복한 점도 제시한다. 마지막으로, 학습된 심층 강화학습 모델을 이용하여 gazebo 시뮬레이션 상에서 타겟을 추종하는 주행과 여러 가지 다양한 상황에서 사람 추종하는 방법을 보여준다.
It is difficult to follow a designated person because a person who follows by a person or an object disappears in sight or a collision may occur by a moving person or an object in a complex environment such as an airport. Thus, model-based planning methods that have been studied for a long time limit the difficulty of defining and dealing with everything in a complex indoor environment. In this paper, I try to overcome this problem by using the path prediction model and Deep Reinforcement Learning to follow well in complex situations. In this paper, I propose a method to follow specified persons even in complex indoor environments. Based on the current and future predicted grid maps generated using the distance sensor and predicted path information, a histogram representing collision risk is generated. I propose a method of solving deep reinforcement learning by using information of this histogram and robot’s state (velocity, angular velocity, size), the trajectory of the follower. I present the learning environment and reward function to solve the human following method with deep reinforcement learning, and present the features of D3QN, output layer for learning efficiency. And I also show that the limit of change of the model according to the input, which is the limit point in the Deep learning, is overcome by the histogram expressing the collision risk. Finally, I show how to follow people in a gazebo simulation using a learned in deep reinforcement learning model and how to follow people in various situations.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/99738http://hanyang.dcollection.net/common/orgView/200000435185
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > ELECTRONICS AND COMPUTER ENGINEERING(전자컴퓨터통신공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE