Linear Video Transformer Network for Action Classification
- Title
- Linear Video Transformer Network for Action Classification
- Author
- 호심이존옵에리베키
- Alternative Author(s)
- 호심이존옵에리베키
- Advisor(s)
- Jun-Won Choi
- Issue Date
- 2021. 8
- Publisher
- 한양대학교
- Degree
- Master
- Abstract
- 본 논문은 선형-복잡도 트랜스포머를 사용한 딥러닝 기반의 비디오 영상
분류 기법에 대한 연구이다. 본 연구는 시각적 트랜스포머와 자연어처리에 사
용되는 선형-복잡도 트랜스포머와 같은 최신의 기법의 영향을 받아 낮은 랭
크의 셀프-어텐션을 사용하여 2차 복잡성을 선형 복잡성으로 낮추도록 설계
하였다.
컨볼루션 모델을 사용하지 않는 접근방식에도 불구하고, 제안하는 모델은
키네틱-400(kinetics-400) 벤치마크에서 최고수준의 성능을 보였다. 제안하
는 방법의 성능을 측정하기 위하여 최신의 트랜스포머 기반의 다른 연구들을
포함한 최고수준성능의 모델들과 정확도, 학습 및 인퍼런스 시간, 메모리 사
용량 측면에서 비교하였다. 결과적으로, 제안하는 모델의 성능이 다른 모델들
의 최고 수준 성능에 준하는 정확도를 유지하면서도 효율성 측면에서 비교 모
델들의 성능을 상회하는 것을 확인하였다. 제안하는 모델과 코드는
https://github.com/elb3k/vtn에서 확인이 가능하다.|In this thesis, we study deep learning-based video classification using linear-complexity transformers. Inspired by the recent development of Visual Transformers and Linear complexity Transformers from NLP research. By leveraging the low rankness of self-attention, we can lower the quadratic complexity of the task to linear complexity.
Despite the convolution-free approach, our model achieves competitive results on the Kinetics-400 benchmark. We quantitatively compare our models with state-of-the-art baselines, including recent similar transformer-based research, using the accuracy, training/inference time, and memory usage. As a result, we empirically find that our models outperform the baselines in terms of efficiency while holding respectable accuracy. Code and models are available at: https://github.com/elb3k/vtn
- URI
- http://hanyang.dcollection.net/common/orgView/200000498735https://repository.hanyang.ac.kr/handle/20.500.11754/163624
- Appears in Collections:
- GRADUATE SCHOOL[S](대학원) > ELECTRICAL ENGINEERING(전기공학과) > Theses (Master)
- Files in This Item:
There are no files associated with this item.
- Export
- RIS (EndNote)
- XLS (Excel)
- XML