689 0

레코드 링키지(Record Linkage) 기법 선택을 위한 지표 및 표본 수 최적화 연구

Title
레코드 링키지(Record Linkage) 기법 선택을 위한 지표 및 표본 수 최적화 연구
Other Titles
Optimizing record linkage sample sizes in accordance with different similarity measures
Author
홍자성
Advisor(s)
장석권
Issue Date
2020-08
Publisher
한양대학교
Degree
Master
Abstract
2018년 11월 15일 데이터 3법이 국회에 발의 되어 지난 2020년 1월 9일 마침내 국회 본회의를 통과하여 2020년 8월 5일 시행을 앞두고 있다. 데이터 분석 주체인 기업의 입장에서 데이터 3법의 시행이 가지는 가장 큰 의의는 가명정보를 구입할 수 있게 된다는 것에 있다. 시행 이전인 현재는 데이터를 분석하기 위하여 모든 데이터를 자체 수집해야 했으나, 시행 이후에는 데이터를 수집하는 대신에 가명 정보를 구입하여 기업이 가지고 있는 정보와 연결시키면 데이터를 분석하는 비용을 크게 감소시킬 수 있다. 그러나 구입한 가명 정보는 개인을 특정할 수 있는 정보가 가려져 있으므로 이를 개인정보와 연결시키려면 각 속성들의 통계학적 관계를 학습하여 개인정보의 Record와 가명정보의 Record를 하나의 데이터였던 것처럼 연결시켜주는 기술인 Record linkage가 필요하다. 그런 이유로 Record Linkage의 다양한 기법들이 연구중이지만, 실제 비즈니스 상황에서 이러한 기법들을 비교 및 선택할 수 있는 방법이 존재하지 않기 때문에 각 데이터 분석 상황에 가장 적절한 Record linkage 기법을 선택 할 수 없게 된다. 또한, 기존 논문에서는 기법의 정확도를 평가하기 위해 원래 하나였던 데이터를 둘로 나누어 Record의 연결을 시행한 뒤 원래의 데이터와 연결된 데이터를 비교하였지만 처음부터 나누어져 있는 데이터를 붙여야 하는 실제 상황에서는 데이터 분석 결과의 신뢰도를 알 방법이 없다. 이를 해결하기 위해서는 기업에서 구입한 정보 중 일부를 자체 수집하여 기법을 비교하기 위한 표본 지표를 만들어야 한다. 표본을 많이 수집할수록 지표의 성능은 좋아진다. 그러나 기업은 데이터를 자체적으로 수집하는 데에 비용이 들기 때문에 지표의 성능과 비용을 종합적으로 고려하여 최적의 표본 개수를 선택해야 한다. 본 논문은 기업이 상관 분석과 T 검정을 하는 상황을 예시로 하여 기법 선택을 위한 지표를 생성하는 방법과 자체적으로 수집해야 하는 표본의 최적값을 구하는 방법을 제시하였다. 이를 통해 기업은 Record 연결을 통한 데이터 분석의 신뢰도를 평가하는 동시에, 각 분석에 가장 적절한 기법을 선택하여 보다 정확한 데이터 분석 결과를 도출해 낼 수 있다.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/153026http://hanyang.dcollection.net/common/orgView/200000438445
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > BUSINESS INFORMATICS(비즈니스인포매틱스학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE