376 0

Detecting Cross-Site Scripting Attacks By Machine-Learning-Based Text Classification Through Normalizing Input Payloads

Title
Detecting Cross-Site Scripting Attacks By Machine-Learning-Based Text Classification Through Normalizing Input Payloads
Author
Nurul Atiqah Abu Talib
Alternative Author(s)
누룰아티카
Advisor(s)
Kyung-Goo Doh
Issue Date
2022. 8
Publisher
한양대학교
Degree
Doctor
Abstract
Devising strategies to ensure the security of web applications against cross-site scripting (XSS) is becoming more complex. New advanced features like open expressiveness and versatile functionalities based on user input are making the effort of ensuring security all the more challenging. Web developers may opt for easily accessible XSS defense software, such as XSS filters. However, they may incorrectly filter benign and malicious payloads without proper configuration. As finding the right configuration is tedious even for those with expert knowledge in XSS, it is appropriate to find a new feasible strategy in the approach so as to meet these challenges. We propose to use machine-learning text classification to detect XSS. For one, the text classification can distinguish classes of malicious and benign input payload strings based on the observed features of past data. For another, it will do away with creating features manually on dangerous characteristics of payloads that require advanced security knowledge. Besides that, it is to take into account the payloads’ benign characteristics. To select features by automatic execution, a persistent concern of previous approaches, we develop a representation of payloads that retains the character and syntactic information in the payloads as opposed to their concrete strings. In retaining the information, we apply payload abstraction through the translation of payloads into sentences of features comprising normalized syntactic tags. We demonstrate the efficacy of our approach on a real-world dataset and, as a result, show that through the abstraction of syntactic information through normalized features we can enhance the performance of classifying input payloads. We show that our approach can aid a classification model to categorize payloads into malicious and benign classes more accurately than those of unnormalized or partially normalized features. More importantly, our approach is able to reduce the overall feature set to a more workable proportion. We assert that using the automation of machine learning in devising web security detection strategies can now become more sustainable as it can be viably manageable even by those with less expert knowledge.|XSS 공격에 견고하게 대응하도록 웹 애플리케이션 보안성을 보장하는 전략을 수립하기가 점점 더 복잡해지고 있다. 사용자 입력에 기반한 표현력 확대 및 기능 다양화와 같은 새로운 기능이 추가되면서 보안성 보장의 노력은 새로운 도전에 직면하고 있다. 웹 개발자의 입장에서는 XSS 필터 같은 대응 소프트웨 어에 기대면 쉽게 해결되리라 생각하기 십상이지만, 필터를 제대로 설정하지 않아서 보안 문제가 발생할 수도 있다. 그런데 XSS에 전문 지식이 있는 경우 에도 설정을 최적화시키기는 힘든 작업이라, 이러한 도전에 효과적으로 대응 할 새로운 전략이 필요한 시점이다. 따라서 기계학습 텍스트 분류 기법을 사 용하여 XSS 공격을 탐지하는 새로운 기법을 제안한다. 텍스트 분류 기술을 활 용하면 축적한 데이터를 학습하여 입력 문자열이 선의인지 악의인지 구별할 수 있기 때문이기도 하고, 악의적인 입력이 가지고 있는 특성을 보안 지식을 써서 따로 알아낼 필요가 없기 때문이기도 하다. 게다가, 그렇게 함으로써 선 의의 입력이 지니고 있는 특성을 자연스럽게 고려하게 되는 효과도 얻을 수도 있기 때문이다. 입력 문자열을 선의와 악의로 구분할 텍스트분류기를 학습시 키기 위해서, 텍스트 분류 학습을 시키기 전에 입력문자열을 파싱하여 구별하기 위한 학습에 필요할 만한 특성만 가지는 자연어 문장으로 정규화하는 사전 요약 절차를 거친다. 요약된 자연어 문장은 사전에 준비된 데이터로 훈련 과 정을 거쳐 분류기로 탄생한다. 이 분류 기법이 효과적인지 입증하기 위해서 현장 데이터를 활용하여 훈련하고 시험하였다. 시험 결과, 정규화 절차를 거 치지 않는 모델에 비해서 훨씬 더 정확하게 분류함을 확인하였다. 더욱이 정 규화를 통하여 특성의 개수를 효율적으로 작업할 만한 수준으로 줄임으로써 실용화 가능성도 보여주게 되었다. 악의적인 공격을 탐지하는 전략을 수립하는데 기계 학습을 효과적으로 사용할 수 있음을 실증함으로써, 보안에 대한 전문지식 없이도 방어 대책을 수립할 수 있는 가능성을 열게 되어 지속가능성을 증명했다는데 이 연구에 의의가 있다고 할 수 있다.
URI
http://hanyang.dcollection.net/common/orgView/200000628063https://repository.hanyang.ac.kr/handle/20.500.11754/174233
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE & ENGINEERING(컴퓨터공학과) > Theses (Ph.D.)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE