503 0

약한 지도 학습 기반 사람 감지와 비디오에서의 행동 경계 탐지

Title
약한 지도 학습 기반 사람 감지와 비디오에서의 행동 경계 탐지
Other Titles
Weakly supervised action localization in untrimmed video with person detection
Author
박소영
Alternative Author(s)
Park Soyoung
Advisor(s)
최용석
Issue Date
2021. 2
Publisher
한양대학교
Degree
Master
Abstract
Temporal Action Localization은 잘리지 않은 긴 비디오에서 행동이 등장하는 구간을 탐지하고, 어떤 행동이 나타났는지를 분류하는 연구이다. 기존의 Action classification에서는 행동이 등장하는 구간이 주어지고 분류만 해결하면 되지만 이 연구는 구간을 함께 추론해야 한다. 이를 해결하는 방식에서 모든 프레임에 대해 행동 라벨을 생성해줘야 하는 Fully supervised learning 방식과 달리 Weakly supervised learning에서는 비디오에서 등장하는 행동만을 태그 삼아 라벨로 사용할 수 있다. 비디오 수준의 태그를 사용하면 행동이 아님에도 불구하고 행동이라고 탐지하는 오류가 등장하기 쉽다. 본 논문에서는 동영상에서 인간이 등장한 구간을 탐지하여 구간 보정에 도움을 주는 새로운 모델을 제안한다. 실험을 통하여 이 연구는 두 가지의 장점을 갖는다. 우선 사람에 대한 행동을 분류하는 일이기 때문에 본 모델에서는 기존의 모델에 비해 사람이 등장하지 않는 구간에 대해 더 높은 정확도를 보인다. 또한 배경임에도 불구하고 행동으로 탐지하는 구간을 교정하는 효과를 갖는다. 이 모델은 동영상이 주어졌을 때 feature extractor, person detector를 사용하여 사람에 대한 피쳐를 추출하고 이를 이용하여 2stream 기반의 네트워크를 통해 행동 구간을 얻는다. 우리는 Thumos14 데이터세트를 이용하여 모델의 성능을 평가하였다. 그 결과, 정량적 평가로 기존 모델에 비해 최대 0.92 높은 성능을 보였고 정성적 평가에서도 배경을 잘못 탐지하는 문제를 해결하는 것을 확인하였다. 해당 실험의 결과를 통하여 기존에 존재하였던 문제점인 Weakly supervised learning을 사용하였을 경우 배경 구간이 행동으로 잘못 측정되는것을 개선할 수 있다는 것을 보였다.; Temporary Action Localization is a study that detects the section in which actions appear in long uncut videos and classifies what actions have appeared. In the existing action classification, the sections in which actions appear are given and only the classification needs to be resolved, but this study should deduce the segments together. Unlike the Full-supervised warning method, which requires the generation of action labels for all frames, weakly superseded warning allows only the actions shown in the video to be tagged and labeled. Using video-level tags is likely to produce errors that detect behavior even though it is not. In this paper, a new model is proposed to detect the section in which humans appeared in the video and help with section correction. Through experiments, this research has two advantages. First of all, since it is a classification of behavior for people, this model shows higher accuracy for sections where no one appears compared to the existing model. It also has the effect of correcting the detection by actions, even though it is the background. This model uses feature extractor and person detector when a video is given to extract a feature about a person and uses it to obtain an action section through a two-stream based network. We evaluated the performance of the model using the Thumos14 dataset. As a result, It was confirmed that the quantitative evaluation showed up to 0.92 higher performance than the existing model, and also solved the problem of incorrectly detecting the background in the qualitative evaluation. The results of the experiment showed that using Weakly superseded guidance, a problem that existed previously, could improve the measurement of the background section incorrectly by action.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/158942http://hanyang.dcollection.net/common/orgView/200000486147
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE(컴퓨터·소프트웨어학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE