딥 러닝을 활용한 자연어 처리(NLP) 분야에서는 Transformer 모델의 Encoder를 기반으로 하는 BERT 모델이 현재까지 많은 연구에서 쓰이고 있다. 하지만 BERT 모델은 많은 수의 파라미터를 가지고 있어서 학습이나 추론에 많은 연산량을 요구한다. 이에 따라서 BERT 모델을 경량화하는 연구들이 활발하게 진행되었으며, 대표적으로 Quantization(양자화) 기법과 Knowledge Distillation(지식 증류) 기법 등이 있다. 또한 대용량 딥 러닝 모델은 고성능 GPU를 이용해 추론을 하는 경우가 많아서 보다 효율적인 GPU 사용을 위해 GPU Kernel Fusion과 같은 기법들이 개발되었다. 본 논문에서는 BERT 모델의 정확도를 최대한 유지하면서 추론 속도를 높이는 부분 양자화 기법과 GPU Kernel Fusion를 BERT 모델에 적용해 추론 속도 향상의 결과를 관찰했다.|In the field of Natural Language Processing(NLP) using Deep Learning, the BERT model based on the Encoder of the Transformer model is being used in many studies so far. However, because the BERT model has a large number of parameters, it requires a large amount of computation for training or inference. Accordingly, studies to reduce the weight of the BERT model have been actively conducted, and representatively, there are Quantization and Knowledge Distillation techniques. In addition, large-capacity Deep Learning models often perform inference using high-performance GPUs, so techniques such as GPU Kernel Fusion have been developed to use GPUs more efficiently. In this paper, we observed the results of improving the inference speed by applying the partial Quantization technique and GPU Kernel Fusion to the BERT model to increase the inference speed while maintaining the accuracy of the BERT model as much as possible.