386 0

딥러닝을 이용한 문서의 인코딩 및 언어 판별

Title
딥러닝을 이용한 문서의 인코딩 및 언어 판별
Other Titles
Encoding and language detection of text document using Deep learning
Author
김선범
Alternative Author(s)
Seonbeom Kim
Advisor(s)
박희진
Issue Date
2018-08
Publisher
한양대학교
Degree
Master
Abstract
문자 인코딩은 문자나 기호들을 컴퓨터에서 표현하기 위해 사용되는 방법이다. 문자 인코딩은 여러 종류가 존재하며, 인코딩마다 문자의 표현에 사용되는 바이트 값이 다르므로 특정 인코딩으로 작성된 문서는 다른 인코딩으로 열람할 수 없다. 이와 같은 문제를 해결하기 위해 “Netscape Communications Corp.”에서 문서의 인코딩 판별 알고리즘을 제안하였으며, 이를 기반으로 개발된 여러 인코딩 판별 소프트웨어들이 존재한다. 그 중 널리 쓰이는 “uchardet”의 경우 문서의 인코딩 판별 정확도는 91.39% 이며, 언어 판별 정확도는 32.09%로 낮은 정확도를 보였다. 또한, 문서가 치환에 의해 암호화된 경우 인코딩 판별 정확도는 3.55%, 언어 판별 정확도는 0.06%에 불과하다. 따라서 본 논문에서는 딥러닝 알고리즘인 LSTM(Long Short-Term Memory)과 Fully connected neural network를 이용한 문서의 인코딩 및 언어 판별 방법을 제안하며, 인코딩 판별 소프트웨어 “uchardet”보다 뛰어난 결과를 보였다. 제안하는 방법을 이용하는 경우 문서의 인코딩 판별 정확도는 99.89%이며, 언어 판별 정확도는 99.92%이다. 또한, 문서가 치환에 의해 암호화된 경우 인코딩 판별 정확도는 99.26%이며, 언어 판별 정확도는 99.77%로 “uchardet”보다 매우 뛰어난 결과를 보였다.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/75943http://hanyang.dcollection.net/common/orgView/200000433696
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE(컴퓨터·소프트웨어학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE