147 0

Classification and Clustering Approaches to Identifying Author Groups of Malware

Title
Classification and Clustering Approaches to Identifying Author Groups of Malware
Other Titles
맬웨어 제작자 그룹 식별을 위한 분류 및 군집화 방안
Author
홍지원
Alternative Author(s)
홍지원
Advisor(s)
김상욱
Issue Date
2022. 2
Publisher
한양대학교
Degree
Doctor
Abstract
As our lives become increasingly dependent on computer software, the threat of malware attacks is getting more significant. Malware is growing exponentially, and malware authors are continuously releasing new ones by slightly modifying the previous version to avoid malware detection. Accordingly, various existing studies to detect malware among benign programs have been performed. To this end, existing studies have attempted to find signatures distinguishing malware among benign programs. However, malware released by a group of authors might also contain evidence that the same group of authors created them. Such information can be used for digital forensics, law enforcement, and deeper analysis. In this dissertation, we address the issue of identifying author groups of malware. We focus on classification and clustering techniques to achieve malware author group identification. To this end, we conduct the following four studies. First, among various information found in malware, it is necessary to extract only the information that implies which author group created which malware. Such information includes evidence of source code reuse and the habitual signature of an author. Unlike the existing studies that attempted to extract features distinguishing malware from benign programs, we extract only the features shared within an author group. For this purpose, we exploit both static and dynamic analyses. Second, we build a set of classification models that predicts which author group created a given malware by using the previously extracted feature information. In this dissertation, we adopt the existing classification methods to train classification models and evaluate the resulting models. We show that using these models makes the proposed malware author group classification feasible. In addition, we determine feature groups that are useful for author group classification by using existing classification methods. We propose a method to build a model and perform classification faster using only the selected features. Third, we propose a graph-based classification method that enables more accurate classification than the abovementioned methods. In addition, we propose graph refinement strategies to improve classification accuracies. Via extensive experiments on a real-world dataset, we verify our graph-based classification could benefit author group classification of malware than traditional feature-based SVM. We also verify that the proposed graph refinement strategies increase the accuracy of the classification. Finally, we propose a malware classification method that clusters malware into author groups. In this dissertation, we propose c-affinity that can replace the existing similarity measure for more accurate clustering. We confirm that c-affinity improves the accuracy of the existing clustering methods via extensive experiments. Also, we confirm that clustering the malware dataset into author groups with c-affinity shows significant accuracy of above 0.9 in terms of NMI.|우리의 삶이 갈수록 컴퓨터 소프트웨어에 의존하게 됨에 따라, 맬웨어에 의한 사이버 공격의 위험성 역시 증대되고 있다. 맬웨어의 저자들은 탐지를 피하기 위해 앞선 버전의 맬웨어를 일부 수정하는 방식으로 지속적으로 새로운 맬웨어를 제작하고 있다. 이에 정상적인 프로그램들 사이에서 맬웨어를 탐지해 내기 위한 다양한 기존 연구가 수행되었다. 특히, 이를 위해서 기존 연구들에서는 정상적인 프로그램들과 맬웨어를 구분할 수 있는 특징들을 찾기 위해 노력했다. 동일한 저자 그룹에서 제작한 맬웨어들은 이들이 같은 그룹에서 제작되었음을 보일 수 있는 특징들 역시 포함하고 있다. 이러한 정보는 디지털 포린식, 법 집행 및 더 각 맬웨어에 대한 더 깊은 분석을 위해 사용될 수 있다. 본 논문에서는 맬웨어의 저자 그룹을 식별하는 문제를 조명한다. 맬웨어 저자 그룹 식별을 달성하기 위해 본 논문에서는 분류 기법들과 군집화 기법들을 중점적으로 다룬다. 이를 위해 다음과 네 가지의 연구를 수행한다. 먼저, 저자 그룹 식별을 위해서는 맬웨어가 포함하는 다양한 특징 정보들 중 소스 코드 재사용과 같이 동일 저자 그룹 내에서 제작되었을 가능성을 시사하는 특징 정보들만을 추출할 필요가 있다. 기존 연구에서 주로 정상 프로그램과 맬웨어를 구분하기 위한 특징 정보들을 추출하려 한 것과 달리, 본 논문에서는 같은 저자 그룹 내에서 공유될 수 있는 특징 정보들만을 추출한다. 이를 위해 정적 및 동적 분석을 함께 활용한다. 두 번째로는 앞서 추출한 특징 정보들을 이용하여 주어진 맬웨어가 어느 저자 그룹에서 제작된 것인지를 예측하는 분류 모델을 생성한다. 본 논문에서는 기존 분류 기법들을 활용하여 분류 모델을 학습하고, 이 모델들을 정량적으로 평가한다. 이를 통해 제안하는 맬웨어 저자 그룹 분류가 실현 가능함을 보인다. 또한 기존 분류 기법들을 활용하여 분류에 도움이 되는 특징 정보 그룹을 판단하고, 이 정보를 바탕으로 더 빠른 모델 구축 및 분류를 수행하는 방안을 제안한다. 세 번째로는 앞서 활용한 기존 분류 기법들에 비해 더 정확한 분류를 가능케 하는 그래프 기반 분류 기법을 제안한다. 또한, 본 논문에서는 분류 정확도를 향상시킬 수 있는 그래프 정제 기법을 함께 제안한다. 실세계 맬웨어 데이터에 대한 다양한 실험을 통해 제안하는 그래프 기반 분류 기법이 기존 분류 기법들에 비해 더 정확한 분류를 수행함을 확인한다. 또한, 제안하는 그래프 정제 기법이 분류 정확도를 향상시킴 역시 실험을 통해 보인다. 마지막으로, 군집화 기술을 활용하여 맬웨어를 저자 그룹에 따라 군집화하는 방안을 제안한다. 본 논문에서는 더 정확한 군집화를 위해 기존 유사도 측정 기법을 대체하여 사용할 수 있는 c-affinity를 제안하고, 다양한 실험을 통해 c-affinity가 기존 군집화 기법의 정확도를 향상시킴을 확인한다. 또한, 이를 이용하여 실제로 맬웨어 데이터를 맬웨어 저자 그룹에 따라 군집화하여 NMI 측면에서 0.9 이상의 높은 정확도를 보임을 확인한다.
URI
http://hanyang.dcollection.net/common/orgView/200000591043https://repository.hanyang.ac.kr/handle/20.500.11754/167482
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE(컴퓨터·소프트웨어학과) > Theses (Ph.D.)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE