1296 0

한국어 문장 분류의 성능 향상을 위한 임베딩 앙상블 방안에 대한 연구

Title
한국어 문장 분류의 성능 향상을 위한 임베딩 앙상블 방안에 대한 연구
Other Titles
A Study on Embedding Ensemble Method for Improving Performance of Korean Sentences Classification
Author
이상원
Alternative Author(s)
Lee, Sang Won
Advisor(s)
김종우
Issue Date
2019. 8
Publisher
한양대학교
Degree
Master
Abstract
최근 소셜 네트워크 서비스(SNS, Social Networking Service)에서 생산되는 텍스트 데이터의 증가와 그래픽처리 장치의 발달로 딥러닝을 활용하여 텍스트 데이터를 자동으로 처리하는 텍스트 마이닝 연구가 증가하고 있다. 이중 텍스트 임베딩(text embedding)은 단어를 국소표현이나 분산표현하는 기법으로 단어를 실수차원의 벡터에 대응시키는 것이다. 자연어 처리 응용 분야가 텍스트 요약, 문서 분류, 기계 번역, 개체명 인식, 챗봇 시스템 등으로 확대됨에 따라 자연어 처리에서 가장 기본이 되는 텍스트 임베딩에 대한 연구 역시 활발히 진행되고 있다. 하지만 단어 임베딩과 관련된 기존의 연구들은 영어를 비롯해 대부분 고립어의 특성을 가진 언어를 대상으로 진행되어 왔고 교착어의 특성이 있는 한국어 임베딩에 대한 연구는 미비하여 기존의 연구 방식을 그대로 적용하기에는 한계가 존재한다. 또한 단일 임베딩 방식이 아닌 앙상블된 임베딩 방식이라면 기존의 텍스트 분류 문제에 있어 더 높은 성능을 얻을 것이라 기대된다. 본 연구에서는 교착어의 특성을 반영하여 임베딩 모델을 학습시키고 세 가지 임베딩 모델을 앙상블하여 한국어 문장 분류의 성능을 높이는 방법에 대해 소개한다. 각 세 가지 모델은 글자 단위의 임베딩과 Word2Vec, ELMo(Embedding from Language Model)가 활용되었다. 또한 교착어의 언어적 특성을 반영하기 위하여 단어의 구분을 띄어쓰기가 아닌 형태소 단위로 구분하여 사전 학습(pre-trained)을 진행하였다. 본 연구는 한국어 텍스트 분류에 대한 성능 평가를 위하여 NSMC(naver sentiment movie corpus v1.0)의 데이터를 사용하였으며 각 모델별로 사전 학습을 진행하였다. 최종적으로 모델의 성능 평가를 정확도(accuracy)를 통해 진행하였으며 교차 검증(k-fold cross validation) 결과 기존 모델에 비해 텍스트 분류 성능이 뛰어남을 입증하였다.; Recently, due to the increase of text data produced by SNS(Social Networking Service) and the evolution of GPU(Graphics Processing Unit) computing, text mining researches have been increased using deep learning to process text data automatically. Among these researches, text embedding is a technique of expressing a word by local representation or distributed representation, and mapping a word to a vector of a real number dimension. As the applications of natural language processing are extended to text summarization, document classification, machine translation, object name recognition, and chatbot system, studies on text embedding, which is the most basic in natural language processing, are actively being carried out. However, previous researches related to word embedding has been conducted on languages such as English and there are limitations and insufficient studies on word embedding that reflects the characteristics of Korean. For these reasons, compares to the single embedding method, it is expected that the ensemble embedding method will achieve higher performance in text classification in Korean. This study introduces a method of enhancing the performance of Korean sentence classification by ensuring three embedding models by learning the embedding model reflecting the characteristics of the agglutinative language. In each of the three models, word-based embedding, Word2Vec, and ELMo (Embedding from Language Model) were used for ensemble. In order to reflect the linguistic characteristics of agglutinative language, words were divided into morpheme units instead of spaces, and the pre-trained was conducted. To show the usefulness of proposed approach, this study used data from NSMC (Naver Sentiment Movie Corpus v1.0) to evaluate the performance of Korean text classification. In conclusion, the proposed model was evaluated through the accuracy and it has been proved that the text classification performs superior compare to the previous models by the result of K-fold cross validation.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/109850http://hanyang.dcollection.net/common/orgView/200000436477
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > BUSINESS INFORMATICS(비즈니스인포매틱스학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE