293 0

딥러닝을 이용한 자연어 처리 기반 작성자 판별 방법

Title
딥러닝을 이용한 자연어 처리 기반 작성자 판별 방법
Other Titles
Author Identification Based on Natural Language Processing Using Deep Learning
Author
오해미
Alternative Author(s)
Haemi Oh
Advisor(s)
박희진
Issue Date
2022. 8
Publisher
한양대학교
Degree
Master
Abstract
모바일과 소셜 네트워크 서비스(Social Networking Service, SNS)가 확산됨에 따라 텍스트로 자신의 의견을 표현하고 대화하는 일이 많아졌다. 이로 인한 텍스트 데이터의 증가로 감정 분석, 주제 분류와 같은 자연어 처리 연구의 필요성이 증가하고 있다. 본 논문에서는 BERT(Bidirectional Encoder Representations from Transformers)를 이용하여 작성자 판별 시 더 높은 성능을 보이는 판별 방법을 제안한다. 주요 아이디어는 작성자가 자주 사용하는 단어 사전을 만들고 단어 사용 빈도에 따른 가중치를 임베딩 값에 더해지도록 한 것이다. 이 방법은 제한된 텍스트 정보만으로 작성자를 판별할 수 있으며 기존의 방법을 개선하기 위한 특별한 하드웨어나 환경이 필요하지 않다. 제안하는 모델의 성능을 확인하기 위해 SNS에서 수집된 텍스트 데이터인 트위터 데이터와 블로그 데이터를 사용해서 실험했다. 모델은 동일한 ID가 작성한 텍스트를 학습하고 주어진 텍스트에 대해 해당 ID가 작성한 것인지 아닌지를 판별했다. 대상 ID에 대해 BERT의 기본 모델을 사용하여 판별한 결과와 논문에서 제안하는 Frequency Embedding을 적용한 FE-BERT를 사용하여 판별한 결과를 비교, 분석하였다. 그 결과, 제안하는 방법이 첫번째 학습에서부터 높은 정확도를 보여주었다. 각 회차별로 학습이 진행되는 동안 FE-BERT는 BERT 보다 더 높은 정확도를 유지하였다. 마지막 학습에서의 정확도 값을 비교해보면 트위터 데이터셋 실험과 블로그 데이터셋 실험은 FE-BERT가 BERT에 비해 각각 7.8%와 4.2%의 높은 정확도를 보였다. 이는 동일한 데이터셋을 기반으로 FE-BERT가 BERT 보다 높은 성능을 보인다는 것을 의미한다. 제안하는 방법이 작성자 판별 분야에서 더 강력하고 효율적인 학습 능력을 검증하였다. |As mobile and Social Networking Service(SNS) spread, more and more people express their opinions and talk through text. Accordingly, the need for natural language processing research such as sentiment analysis and subject classification is increasing due to the increase in text data. In this paper, I propose an author identification method that shows higher performance when identifying authors using BERT(Bidirectional Encoder Represents from Transformers). The main idea is to create a dictionary of frequently used words by authors and add weights based on the frequency of word use to the embedding values. This method can Identify the author only with limited textual information and does not require special hardware or environment to improve existing methods. To verify the performance of the proposed model, we experimented using twitter data and blog data, which are text data collected from SNS. The model learned the text written by the same ID and determined whether the ID wrote the given text. I compare and analyze the identification results using the FE-BERT model applying the Frequency Embedding proposed in this paper and the basic model of BERT. As a result, the proposed method showed high accuracy from the first learning. During the learning process for each epoch, FE-BERT maintained a higher accuracy than BERT. Comparing the accuracy values in the last learning, the Twitter dataset experiment and the blog dataset experiment showed FE-BERT higher accuracy of 7.8% and 4.2% compared to BERT. This means that FE-BERT shows higher performance than BERT based on the same dataset. The proposed method verified more powerful and efficient learning ability in the field of author identification.
URI
http://hanyang.dcollection.net/common/orgView/200000627663https://repository.hanyang.ac.kr/handle/20.500.11754/174229
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE(컴퓨터·소프트웨어학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE