483 0

BERT 모델 추론 속도 향상을 위한 연구

Title
BERT 모델 추론 속도 향상을 위한 연구
Other Titles
Improving the inference performance of BERT Model
Author
김형주
Alternative Author(s)
Kim, Hyeong Ju
Advisor(s)
서지원
Issue Date
2022. 2
Publisher
한양대학교
Degree
Master
Abstract
딥 러닝을 활용한 자연어 처리(NLP) 분야에서는 Transformer 모델의 Encoder를 기반으로 하는 BERT 모델이 현재까지 많은 연구에서 쓰이고 있다. 하지만 BERT 모델은 많은 수의 파라미터를 가지고 있어서 학습이나 추론에 많은 연산량을 요구한다. 이에 따라서 BERT 모델을 경량화하는 연구들이 활발하게 진행되었으며, 대표적으로 Quantization(양자화) 기법과 Knowledge Distillation(지식 증류) 기법 등이 있다. 또한 대용량 딥 러닝 모델은 고성능 GPU를 이용해 추론을 하는 경우가 많아서 보다 효율적인 GPU 사용을 위해 GPU Kernel Fusion과 같은 기법들이 개발되었다. 본 논문에서는 BERT 모델의 정확도를 최대한 유지하면서 추론 속도를 높이는 부분 양자화 기법과 GPU Kernel Fusion를 BERT 모델에 적용해 추론 속도 향상의 결과를 관찰했다.|In the field of Natural Language Processing(NLP) using Deep Learning, the BERT model based on the Encoder of the Transformer model is being used in many studies so far. However, because the BERT model has a large number of parameters, it requires a large amount of computation for training or inference. Accordingly, studies to reduce the weight of the BERT model have been actively conducted, and representatively, there are Quantization and Knowledge Distillation techniques. In addition, large-capacity Deep Learning models often perform inference using high-performance GPUs, so techniques such as GPU Kernel Fusion have been developed to use GPUs more efficiently. In this paper, we observed the results of improving the inference speed by applying the partial Quantization technique and GPU Kernel Fusion to the BERT model to increase the inference speed while maintaining the accuracy of the BERT model as much as possible.
URI
http://hanyang.dcollection.net/common/orgView/200000592321https://repository.hanyang.ac.kr/handle/20.500.11754/167481
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE(컴퓨터·소프트웨어학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE