사전 외 어휘 임베딩과 트랜스포머를 이용한 텍스트 정규화
- Title
- 사전 외 어휘 임베딩과 트랜스포머를 이용한 텍스트 정규화
- Other Titles
- Text Normalization Using Out-of-Vocabulary Embedding with Transformer
- Author
- 원은영
- Advisor(s)
- 차재혁
- Issue Date
- 2022. 8
- Publisher
- 한양대학교
- Degree
- Master
- Abstract
- 텍스트 정규화는 노이즈가 있는 텍스트를 입력으로 받아, 노이즈가 제거된 텍스트를 출력으로 하는 작업이다. 텍스트에서 노이즈의 정의는 일관적이지 않으며, 데이터의 성격에 의존한다. 본 논문에서 노이즈는 소셜 미디어 등을 통해 사용자가 생산한 텍스트(User-generated content, UGC)에서 나타나는 현상들이며, 오타나 줄임말 등이 주를 이룬다. 이에 관한 선행 연구들은 모두 각 노이즈의 생성을 개별적인 문제로 보았으며, 또 텍스트 정규화 문제가 지닌 데이터셋의 특성인 입력과 출력의 유사성을 고려하지 않았다는 한계가 존재한다.
본 연구는 많은 선행 연구와 마찬가지로 텍스트 정규화 문제를 인코더-디코더 모델을 사용해 풀려고 하였으며, 비표준적 단어 해결을 위해 단어의 음성 및 문자열 유사도를 이용한다. 그러나 두 가지 측면에서 선행 연구의 한계를 극복하려고 하였다. 첫 번째로, 텍스트 정규화 문제의 경우 일반적인 기계 번역 문제와 달리 입력 데이터와 출력 데이터의 상당 부분이 유사하다. 따라서 이 특성을 활용하였다. 두 번째로, 각 비표준적 어휘가 생성되는 과정에 일정한 패턴이 있을 것이라 가정하고 비표준적 어휘를, 대응되는 표준적 어휘와 관련해 연속적으로 나타낼 수 있는 임베딩 방법을 제시하였다.
실험 결과, 본 연구는 베이스라인이 되는 어텐션 메커니즘을 활용한 인코더-디코더 모델과 F-1 Score 기준으로 유사한 성능을 보였다. 이는 데이터셋의 크기가 작다는 것을 고려할 때 의미있는 결과인데, 연구에서 사용된 트랜스포머는 베이스라인에서 사용된 시퀀스 투 시퀀스 모델에 비해 볼륨이 큰 데이터셋일 때 좋은 성능을 보이기 때문이다. 또한, 정성적 평가를 통해 비표준적 어휘의 임베딩 역시 표준적 어휘와 관련하여 일정 수준 이루어지고 있음을 보였다.
- URI
- http://hanyang.dcollection.net/common/orgView/200000627741https://repository.hanyang.ac.kr/handle/20.500.11754/174230
- Appears in Collections:
- GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE(컴퓨터·소프트웨어학과) > Theses (Master)
- Files in This Item:
There are no files associated with this item.
- Export
- RIS (EndNote)
- XLS (Excel)
- XML