Repository at Hanyang University: 딥러닝을 이용한 문서의 인코딩 및 언어 판별

Browse

My Repository

Repository at Hanyang UniversityGRADUATE SCHOOL[S](대학원)COMPUTER SCIENCE(컴퓨터·소프트웨어학과)Theses (Master)

386 0

딥러닝을 이용한 문서의 인코딩 및 언어 판별

Title: 딥러닝을 이용한 문서의 인코딩 및 언어 판별

Other Titles: Encoding and language detection of text document using Deep learning

Author: 김선범

Alternative Author(s): Seonbeom Kim

Advisor(s): 박희진

Issue Date: 2018-08

Publisher: 한양대학교

Degree: Master

Abstract: 문자 인코딩은 문자나 기호들을 컴퓨터에서 표현하기 위해 사용되는 방법이다. 문자 인코딩은 여러 종류가 존재하며, 인코딩마다 문자의 표현에 사용되는 바이트 값이 다르므로 특정 인코딩으로 작성된 문서는 다른 인코딩으로 열람할 수 없다. 이와 같은 문제를 해결하기 위해 “Netscape Communications Corp.”에서 문서의 인코딩 판별 알고리즘을 제안하였으며, 이를 기반으로 개발된 여러 인코딩 판별 소프트웨어들이 존재한다. 그 중 널리 쓰이는 “uchardet”의 경우 문서의 인코딩 판별 정확도는 91.39% 이며, 언어 판별 정확도는 32.09%로 낮은 정확도를 보였다. 또한, 문서가 치환에 의해 암호화된 경우 인코딩 판별 정확도는 3.55%, 언어 판별 정확도는 0.06%에 불과하다. 따라서 본 논문에서는 딥러닝 알고리즘인 LSTM(Long Short-Term Memory)과 Fully connected neural network를 이용한 문서의 인코딩 및 언어 판별 방법을 제안하며, 인코딩 판별 소프트웨어 “uchardet”보다 뛰어난 결과를 보였다. 제안하는 방법을 이용하는 경우 문서의 인코딩 판별 정확도는 99.89%이며, 언어 판별 정확도는 99.92%이다. 또한, 문서가 치환에 의해 암호화된 경우 인코딩 판별 정확도는 99.26%이며, 언어 판별 정확도는 99.77%로 “uchardet”보다 매우 뛰어난 결과를 보였다.

URI: https://repository.hanyang.ac.kr/handle/20.500.11754/75943 http://hanyang.dcollection.net/common/orgView/200000433696

Appears in Collections:: GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE(컴퓨터·소프트웨어학과) > Theses (Master)

Files in This Item:

Export: RIS (EndNote); XLS (Excel); XML

Show full item record

한양대학교 리포지터리는 국립중앙도서관 OAK 보급사업으로 구축되었습니다. Feedback 개인정보처리방침

Hanyang University repository

Browse

My Repository

BROWSE