338 0

Linear Video Transformer Network for Action Classification

Title
Linear Video Transformer Network for Action Classification
Author
호심이존옵에리베키
Alternative Author(s)
호심이존옵에리베키
Advisor(s)
Jun-Won Choi
Issue Date
2021. 8
Publisher
한양대학교
Degree
Master
Abstract
본 논문은 선형-복잡도 트랜스포머를 사용한 딥러닝 기반의 비디오 영상 분류 기법에 대한 연구이다. 본 연구는 시각적 트랜스포머와 자연어처리에 사 용되는 선형-복잡도 트랜스포머와 같은 최신의 기법의 영향을 받아 낮은 랭 크의 셀프-어텐션을 사용하여 2차 복잡성을 선형 복잡성으로 낮추도록 설계 하였다. 컨볼루션 모델을 사용하지 않는 접근방식에도 불구하고, 제안하는 모델은 키네틱-400(kinetics-400) 벤치마크에서 최고수준의 성능을 보였다. 제안하 는 방법의 성능을 측정하기 위하여 최신의 트랜스포머 기반의 다른 연구들을 포함한 최고수준성능의 모델들과 정확도, 학습 및 인퍼런스 시간, 메모리 사 용량 측면에서 비교하였다. 결과적으로, 제안하는 모델의 성능이 다른 모델들 의 최고 수준 성능에 준하는 정확도를 유지하면서도 효율성 측면에서 비교 모 델들의 성능을 상회하는 것을 확인하였다. 제안하는 모델과 코드는 https://github.com/elb3k/vtn에서 확인이 가능하다.|In this thesis, we study deep learning-based video classification using linear-complexity transformers. Inspired by the recent development of Visual Transformers and Linear complexity Transformers from NLP research. By leveraging the low rankness of self-attention, we can lower the quadratic complexity of the task to linear complexity. Despite the convolution-free approach, our model achieves competitive results on the Kinetics-400 benchmark. We quantitatively compare our models with state-of-the-art baselines, including recent similar transformer-based research, using the accuracy, training/inference time, and memory usage. As a result, we empirically find that our models outperform the baselines in terms of efficiency while holding respectable accuracy. Code and models are available at: https://github.com/elb3k/vtn
URI
http://hanyang.dcollection.net/common/orgView/200000498735https://repository.hanyang.ac.kr/handle/20.500.11754/163624
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > ELECTRICAL ENGINEERING(전기공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE