피싱을 통한 사이버 범죄가 늘어나고 있다. 피싱이 초래하는 피해를 방지하기 위해 콘텐츠 기반, URL 문자열 기반 등 많은 피싱 URL 관련 연구들이 진행되어 왔다. 콘텐츠 기반 방법은 웹 페이지 콘텐츠를 다운로드하고 분석하는 방법으로, 보안상 위험이 따르는 단점이 존재한다. URL 문자열 기반 방법은 URL 문자열 패턴을 분석하고 이를 피싱 URL 탐지에 사용한다. 본 논문에서는 기존 연구로부터 확인된 피싱 URL의 경향에서 착안하여, URL 문자열을 그래프로 구축하고 Random Walk with Restart, Belief Propagation과 같은 그래프 추론 알고리즘과 DeepWalk, Node2vec과 같은 그래프 임베딩 기법을 통해 URL의 피싱 여부를 예측한다. 우리의 그래프 기반 피싱 URL 탐지 방법과 분류 알고리즘을 활용한 기존 피싱 URL 탐지 방법을 비교한 결과, 그래프 기반 방법이 모든 정확도 척도에서 더 높은 성능을 보였다.
Cyber crime through phishing is on the rise. To prevent the damage caused by phishing attacks, many studies to detect phishing URLs such as content-based and string-based have been conducted. A content-based method is a method of downloading and analyzing web page content, which poses a security risk. The string-based method analyzes URL string patterns and uses them for phishing URL detection. In this paper, we construct a graph with URL strings based on the phishing URL trends identified from previous studies. And, we detect phishing URLs through the graph-based inference algorithms such as Random Walk with Restart, Belief Propagation, and graph embedding methods such as DeepWalk, Node2vec. As a result of comparing our graph-based phishing URL detection method with the conventional phishing URL detection methods, our method shows better prediction performance in all accuracy measures.