281 0

K-means Clustering을 이용한 BERT 모델 압축

Title
K-means Clustering을 이용한 BERT 모델 압축
Author
정홍석
Advisor(s)
서지원
Issue Date
2023. 2
Publisher
한양대학교
Degree
Master
Abstract
최근 심층신경망 모델들은 일반화 성능을 높이기 위해 더 큰 모델 구조와 더 많은 데이터를 사용해 모델을 학습한다. 특히, 자연어 처리 분야에서 Transformer 구조가 발표된 이후 성능을 높이기 위해 BERT, GPT 등 모델에 대한 연구가 진행되면서 모델의 크기를 키우고 더 많은 데이터를 학습시키는 방법이 자연어 처리 능력을 향상시킬 수 있는 방법으로 떠오르면서 이런 연구 방향성은 더욱 대세가 되어가는 추세이다. 특히, 자연어 처리 분야는 Transformer 구조가 발표된 이후 모델 크기가 이전보다 빠르고 크게 증가하는 분야 중 하나이다. 이런 자연어 처리 모델들의 증가된 모델 크기는 디스크 저장 공간을 많이 차지하고, 제한된 리소스를 갖는 모바일 기기에 모델을 배포할 때 큰 장애가 된다. 본 논문에서는 이를 해결하기 위해 K-Means Clustering을 이용한 모델 압축 기법을 소개하고, 대표적인 자연어처리 모델인 Bert에 적용했다. 적용 결과 모든 레이어에 대해서 256개의 Centroid를 가질 경우 BERT 모델의 일반화 성능을 0.5% 이상 떨어트리지 않고, 모델의 저장 용량을 3.9배 줄일 수 있음을 확인했다.
URI
http://hanyang.dcollection.net/common/orgView/200000651799https://repository.hanyang.ac.kr/handle/20.500.11754/179818
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > ARTIFICIAL INTELLIGENCE(인공지능학과) > Theses(Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE