문자 인코딩은 문자나 기호들을 컴퓨터에서 표현하기 위해 사용되는 방법이다. 문자 인코딩은 여러 종류가 존재하며, 인코딩마다 문자의 표현에 사용되는 바이트 값이 다르므로 특정 인코딩으로 작성된 문서는 다른 인코딩으로 열람할 수 없다. 이와 같은 문제를 해결하기 위해 “Netscape Communications Corp.”에서 문서의 인코딩 판별 알고리즘을 제안하였으며, 이를 기반으로 개발된 여러 인코딩 판별 소프트웨어들이 존재한다. 그 중 널리 쓰이는 “uchardet”의 경우 문서의 인코딩 판별 정확도는 91.39% 이며, 언어 판별 정확도는 32.09%로 낮은 정확도를 보였다. 또한, 문서가 치환에 의해 암호화된 경우 인코딩 판별 정확도는 3.55%, 언어 판별 정확도는 0.06%에 불과하다. 따라서 본 논문에서는 딥러닝 알고리즘인 LSTM(Long Short-Term Memory)과 Fully connected neural network를 이용한 문서의 인코딩 및 언어 판별 방법을 제안하며, 인코딩 판별 소프트웨어 “uchardet”보다 뛰어난 결과를 보였다. 제안하는 방법을 이용하는 경우 문서의 인코딩 판별 정확도는 99.89%이며, 언어 판별 정확도는 99.92%이다. 또한, 문서가 치환에 의해 암호화된 경우 인코딩 판별 정확도는 99.26%이며, 언어 판별 정확도는 99.77%로 “uchardet”보다 매우 뛰어난 결과를 보였다.