263 0

사전 외 어휘 임베딩과 트랜스포머를 이용한 텍스트 정규화

Title
사전 외 어휘 임베딩과 트랜스포머를 이용한 텍스트 정규화
Other Titles
Text Normalization Using Out-of-Vocabulary Embedding with Transformer
Author
원은영
Advisor(s)
차재혁
Issue Date
2022. 8
Publisher
한양대학교
Degree
Master
Abstract
텍스트 정규화는 노이즈가 있는 텍스트를 입력으로 받아, 노이즈가 제거된 텍스트를 출력으로 하는 작업이다. 텍스트에서 노이즈의 정의는 일관적이지 않으며, 데이터의 성격에 의존한다. 본 논문에서 노이즈는 소셜 미디어 등을 통해 사용자가 생산한 텍스트(User-generated content, UGC)에서 나타나는 현상들이며, 오타나 줄임말 등이 주를 이룬다. 이에 관한 선행 연구들은 모두 각 노이즈의 생성을 개별적인 문제로 보았으며, 또 텍스트 정규화 문제가 지닌 데이터셋의 특성인 입력과 출력의 유사성을 고려하지 않았다는 한계가 존재한다. 본 연구는 많은 선행 연구와 마찬가지로 텍스트 정규화 문제를 인코더-디코더 모델을 사용해 풀려고 하였으며, 비표준적 단어 해결을 위해 단어의 음성 및 문자열 유사도를 이용한다. 그러나 두 가지 측면에서 선행 연구의 한계를 극복하려고 하였다. 첫 번째로, 텍스트 정규화 문제의 경우 일반적인 기계 번역 문제와 달리 입력 데이터와 출력 데이터의 상당 부분이 유사하다. 따라서 이 특성을 활용하였다. 두 번째로, 각 비표준적 어휘가 생성되는 과정에 일정한 패턴이 있을 것이라 가정하고 비표준적 어휘를, 대응되는 표준적 어휘와 관련해 연속적으로 나타낼 수 있는 임베딩 방법을 제시하였다. 실험 결과, 본 연구는 베이스라인이 되는 어텐션 메커니즘을 활용한 인코더-디코더 모델과 F-1 Score 기준으로 유사한 성능을 보였다. 이는 데이터셋의 크기가 작다는 것을 고려할 때 의미있는 결과인데, 연구에서 사용된 트랜스포머는 베이스라인에서 사용된 시퀀스 투 시퀀스 모델에 비해 볼륨이 큰 데이터셋일 때 좋은 성능을 보이기 때문이다. 또한, 정성적 평가를 통해 비표준적 어휘의 임베딩 역시 표준적 어휘와 관련하여 일정 수준 이루어지고 있음을 보였다.
URI
http://hanyang.dcollection.net/common/orgView/200000627741https://repository.hanyang.ac.kr/handle/20.500.11754/174230
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE(컴퓨터·소프트웨어학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE