420 0

가공되지 않은 데이터를 활용한 악성코드 패밀리 분류에서의 딥러닝 기술을 통한 성능 향상

Title
가공되지 않은 데이터를 활용한 악성코드 패밀리 분류에서의 딥러닝 기술을 통한 성능 향상
Other Titles
Improved Malware Family Classification Using Unprocessed Data Through Deep-Learning Technique
Author
정병호
Alternative Author(s)
Jung, Byeong Ho
Advisor(s)
임을규
Issue Date
2020-08
Publisher
한양대학교
Degree
Master
Abstract
본 연구에서는 선별되지 않은 악성코드의 데이터를 활용하여 악성코드의 패밀리를 분류하는 방법에 대하여 연구하였다. 이러한 목적을 달성하기 위하여 본 연구에서는 다음 두 가지 가설을 설정하고 2015 Microsoft Malware Set을 샘플로 활용하여 이에 대한 기존의 방법과의 성능 비교를 활용하여 검증을 수행하였다. 현재 Raw Byte Sequence를 활용한 패턴 인식 기반 악성코드 분류 연구는 기존의 CNN(Convolution Neural Network) 모델의 방법을 그대로 계승하여 NxM 사이즈의 필터를 활용한다. 해당 방식은 특정 알고리즘을 활용하여 이미지 형태로 변환된 데이터에는 활용 가능하나, 텍스트의 특성을 유지하고 있는 Raw Byte Sequence에는 적절하지 않다. 따라서 본 연구에서는 1 x N 사이즈의 필터를 활용하여 분류를 진행할 경우, N x M 사이즈의 필터에 비해 높은 성능을 보일 것이라는 가설을 설정하였다. 실험 결과, N x M 사이즈의 필터를 활용한 패턴 인식 기반 악성코드 분류 모델에서는 68.2%의 분류 정확도를 보였으나, 1xN 사이즈 필터를 활용한 문장 인식 기반 악성코드 분류 모델에 서는 78.5%의 분류 정확도를 보여 약 10%의 분류 정확도 향상을 보임을 확인 하였다. Raw Byte Sequence를 활용한 악성코드 분류 방법은 모든 선처리 과정을 생략하므로 모든 파일에 대하여 적용이 가능하지만 파일 크기가 모델이 허용하는 크기를 초과할 경우, 해당 데이터를 제거하는 방식을 활용하여 분류를 진행하므로 상대적으로 낮은 정확도를 보인다. 또한, 실행 압축 등 난독화 기법이 적용되어 있을경우, 이에 대한 대응이 불가능하다는 단점을 가진다. 본 연구에서는 해당 문제점을 개선하기 위하여 다음과 같은 방법을 활용하였다. 첫번쩨, 디스어셈블이 수행된 파일을 활용한다. 두번째, 데이터를 드롭하지 않고 해쉬 함수를 활용하여 지정된 벡터에 축약하여 저장한다. 이러한 사항을 반영하여 본 연구에서는 명령어 길이 시퀀스를 활용한 악성코드 분류 기법을 제안한다. 해당 분류 기법에서는 추출된 명령어 바이트 길이 시퀀스 정보를 N-gram 기법으로 나타내고 이를 해쉬맵으로 나타내는 방식을 활용하여 데이터 드롭을 최소화 한다. 2015 Microsoft Malware Set을 활용하여 해당 기법에 대한 정확도 측정 실험을 수행한 결과, 99%의 정확도를 나타내어 이전에 제안한 방법들에 비해 상대적으로 향상된 성능을 나타내었다.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/152760http://hanyang.dcollection.net/common/orgView/200000438308
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE(컴퓨터·소프트웨어학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE