298 0

Personal sensitive information identification through deep learning based named entity recognition in structured documents

Personal sensitive information identification through deep learning based named entity recognition in structured documents
Alternative Author(s)
Issue Date
회사에서 정부 기관에 이르기 까지 많은 양의 문서들이 사설 서버나 클 라우드 환경에서 공유되어 지고 있다. 이들 문서들 중에는 개인명의, 주민 등록 번호, 주소 등의 개인 민감 정보들을 내포하고 있는 문서들이 있으며, 최근에는 영어로 작성된 문서 뿐 아니라 많은 양의 한글로 작성된 문서 또 한 유출되어 지고 있는 실정이다. 이러한 문서들의 유출은 개인의 피해 뿐 만 아니라 기업과 공공기관에 이르는 막대한 피해를 입히기 때문에 데이터 유출 방지 기법이 필요하다. 기존에는 패턴 매칭 기법들을 통해 민감 정보 를 식별하고 유출을 방지하였지만, 이러한 방법들은 새로운 유형의 데이터 가 입력되었을 경우, 식별하지 못하는 문제점이 있었다. 이러한 문제점을 해결하기 위해서 문서 내 단어들을 이름, 주소 등의 항목으로 분류하고 이 들 항목을 민감 정보로 판별하는 딥러닝 기반의 개체명 인식 기법을 활용 한 데이터 방지 기법들이 활발히 연구 진행 중이다. 이러한 기법은 문장과 같이 문맥 정보를 가진 비정형 데이터에서는 민감 정보를 식별하는데 좋은 성능을 보였지만, 표와 같이 정형 데이터 내에서는 문맥 정보를 확인할 수 없기 때문에 좋은 성능을 보이지 못한다는 단점이 있었다. 실제로 많은 양 의 정보들이 표로 구성되어 있고, 이러한 표들이 문서의 종류 마다 양식이 다르다는 점을 보았을 때 현재 연구되어지고 있는 딥러닝 기반의 개체명 인식기법들의 한계를 볼 수 있다. 게다가 개체명 인식 기법은 한글의 특성 때문에 영어보다 한글에서 낮은 정확도를 가진다. 이러한 기존의 방법들의 한계를 극복하기 위해서, 본 논문에서는 데이터 유출 방지 기법으로 순환 신경망 계열의 딥러닝 모델인 양방향 장단기 메모리 언어 모델을 활용하 여, 정형 데이터 표 안에 있는 한글 단어들을 통해 실제 문서에서 사용될 법 한 문장을 의도적으로 생성하여 문맥적 정보를 얻고 해당 문장을 개체 명 인식을 통해 표 안의 단어가 민감 정보인지 아닌지를 판별하는 방법을 제안한다.
A Lot of documents in many organizations from companies to governments are shared on on-premise storage or clouds. And some of those documents may contain sensitive information such as names, social security numbers, addresses and so on. Especially a large amount of sensitive information written in Korean have been leaked nowadays. It can be severe problems to not only individuals but also many organizations. Therefore, for information protection, Data Loss Prevention(DLP) has been needed. DLP systems based on pattern matching were popular in the past. But they have a difficulty handling new type of sensitive data whenever they come. To handle this problem, sensitive data identification with deep learning based Named Entity Recognition(NER) is proposed as a useful method of DLP system. By using NER, we can classify the words in a document into categories which consist of name, location and so on. These categories are considered as sensitive information. This approach shows good performance identifying information in unstructured data(e.g. sentences) which have contextual information whereas it has a weakness identifying sensitive information in structured data (e.g. personal names in cells of the table). Actually, a large amount of sensitive information is organized in structured data and the form of structured data varies depending on the document. Furthermore, it also has difficulties identifying data written in Korean because of its characteristics. We proposed a primary preventive measure of DLP by identifying sensitive data in tables of Korean documents by combining text generation and NER based on Bidirectional LSTM model which is a kind of recurrent neural network model regardless of the form of tables and masking them as to share documents without disclosing sensitive information.
Appears in Collections:
Files in This Item:
There are no files associated with this item.
RIS (EndNote)
XLS (Excel)


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.