14 3

바이너리 시각화와 기계학습을 이용한 악성코드 분류

Title
바이너리 시각화와 기계학습을 이용한 악성코드 분류
Other Titles
Malware Classification Using Machine Learning and Binary Visualization
Author
임을규
Keywords
컴퓨터 보안; 악성코드 분류; 특징정보 추출; 기계학습; computer security; malware classification; feature extraction; machine learning
Issue Date
2018-04
Publisher
한국정보과학회
Citation
정보과학회 컴퓨팅의 실제 논문지, v. 24, no. 4, page. 198-203
Abstract
악성코드 제작 시, 기존 코드의 재사용, 악성코드 제작 도구의 발전 등의 이유로 인해, 악성코드 변종의 수가 빠르게 증가하고 있다. 따라서 악성코드의 변종을 정확하고 신속하게 분류하는 것이 중요해지고 있다. 기존의 악성코드 분류는 바이너리 파일 내 특정 바이트 순열 포함 여부를 이용하였으나 이러한 시그니처 기반 악성코드 분류는 변종 악성코드를 분류하는 데 어려움이 있다. 본 논문은 악성코드변종을 보다 높은 정확도로 분류하기 위한 이미지 기반 악성코드 분류 방법을 제안한다. 악성코드 분류를 위해, 악성코드 바이너리로부터 고정된 크기의 이미지를 생성한다. 바이너리의 각 바이트의 값을 좌표로 이용하며, 2 바이트 데이터를 <x, y> 좌표로 대응시켜, 이미지에서 각 좌표에 해당되는 픽셀의 값을 증가시킨다. 이러한 방식으로 생성된 이미지 특징정보를 기계학습에 활용한다. 악성코드 분류에 사용된 기계학습 알고리즘은 random forest와 convolutional neural network이며, 각각의 분류 기법을 10868개의 악성코드 샘플에 실험한 결과, 각각 98.9%, 97.1%의 높은 정확도로 악성코드를 분류하였다.The number of variants of malware is rapidly increasing. This can be attributed to reasons such as reuse of existing code and evolution of malware generation tools. Therefore, it is important to classify variants of malware accurately and quickly. The current malware classification system used whether binary file includes certain byte sequence in itself but these signature based malware classifications has difficulties in classifying variants of malware. This paper proposes a new method for classifying variants of malware. To classify variants of malware, it creates a fixed size image from malware binary file. The value of each byte of the binary is used as a coordinate and the two byte data is associated with the <x, y> coordinates, and the value of the pixel corresponding to each coordinate in the image is increased. The image feature information generated in this way is utilized for machine learning. The machine learning methods used in malware classification are random forest, convolutional neural network and the experiments of each classification method on 10868 malware samples resulted with high accuracy of 98.9% and 97.1% respectively.
URI
http://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE07412210&amp;language=ko_KRhttp://repository.hanyang.ac.kr/handle/20.500.11754/118444
ISSN
2383-6318; 2383-6326
DOI
10.5626/KTCP.2018.24.4.198
Appears in Collections:
COLLEGE OF ENGINEERING[S](공과대학) > COMPUTER SCIENCE(컴퓨터소프트웨어학부) > Articles
Files in This Item:
바이너리 시각화와 기계학습을 이용한 악성코드 분류.pdfDownload
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE