305 0

IDF와 문자열 특징을 이용한 머신러닝 기반 악성 URL 탐지

Title
IDF와 문자열 특징을 이용한 머신러닝 기반 악성 URL 탐지
Other Titles
Machine Learning-Based Malicious URL Detection Using IDF and String Features
Author
김애리
Alternative Author(s)
Kim, Ae Ri
Advisor(s)
임을규
Issue Date
2023. 2
Publisher
한양대학교
Degree
Master
Abstract
피싱 공격은 매해 꾸준히 증가하고 있으며 그에 따라 피해 규모 역시 커지고 있다. 피싱은 개인뿐만 아니라 기업을 상대로 막대한 피해를 입히며 피싱 공격의 형태는 날로 진화되고 있다. 피싱의 증가에 맞서 피해를 최소화하기 위해서는 빠른 악성 URL 탐지가 중요하다. 본 논문에서는 상대적으로 응답 시간이 긴 타사 서비스를 제외한 URL 자체에서 추출한 특징만을 사용하여 악성 URL을 빠르게 탐지하는 것을 목표로 한다. 공격자들은 악성 URL인 것을 숨기기 위해 URL의 길이를 늘리는 경향이 있는데 그 중 path 부분을 늘리기도 한다. 본 연구에서는 악성 URL과 정상 URL의 path 패턴이 다르다는 것을 가정하고 IDF를 적용한 특징을 사용했다. Information gain을 통해 특징 중요도를 매긴 결과, IDF 특징은 특징 28개 중 상위 5위로 15.94%의 높은 중요도를 보였다. URL 자체에서 추출한 문자열 기반 특징과 IDF 특징을 이용하여 악성 URL을 머신러닝으로 탐지한 결과, RF 분류기를 사용했을 때 정확도 92.66%, F1-score 92.65%, AUC 92.66%로 3가지 분류기 중에서 가장 좋은 분류 성능을 보였다. |Phishing attacks are steadily increasing every year, and the scale of damage is also increasing accordingly. Phishing inflicts enormous damage not only to individuals but also to businesses, and the form of phishing attacks is evolving day by day. Rapid detection of malicious URLs is important to minimize damages against the increase in phishing. In this paper, we aim to quickly detect malicious URLs using only features extracted from URLs themselves, excluding third-party services with relatively long response times. Attackers tend to lengthen the length of URLs to hide malicious URLs, and sometimes lengthen the path part. In this study, it was assumed that the path patterns of malicious URLs and normal URLs were different, and IDF-applied feature was used. As a result of ranking feature importance through information gain, the IDF feature was ranked in the top 5 among 28 features, showing a high importance of 15.94%. As a result of machine learning detection of malicious URLs using string-based features and IDF features extracted from URLs themselves, when using the RF classifier, accuracy was 92.66%, F1-score 92.65%, and AUC 92.66%, which was the best classification among the three classifiers. showed performance.
URI
http://hanyang.dcollection.net/common/orgView/200000655610https://repository.hanyang.ac.kr/handle/20.500.11754/179388
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > INFORMATION SECURITY(정보보안학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE