141 0

전자상거래에서 성별 예측을 위한 앙상블 모델

Title
전자상거래에서 성별 예측을 위한 앙상블 모델
Other Titles
Ensemble model for gender prediction in e-commerce
Author
소재현
Alternative Author(s)
So, Jae Hyun
Advisor(s)
조인휘
Issue Date
2021. 8
Publisher
한양대학교
Degree
Master
Abstract
본 논문에서는 이커머스(e-Commerce)에서 개인정보보호법으로 인해 보호하고 있는 사용자의 정보에서 데이터를 추출하고 성별을 예측하는 연구를 진행한다. 이커머스에서 보호받고 있는 데이터는 개인을 특정할 수 있는 민감한 데이터를 저장하고 있다. 이러한 이유로 이커머스는 개인의 정보를 보관하기 위해 암호화하여 저장해야 한다. 소규모 이커머스 같은 경우 관리에 포지션을 두지 않고 과감하게 데이터 관리를 포기하고 있다. 이와같은 환경에서는 이커머스의 판매율을 높이기 위한 마케팅에 제한이 발생한다. 성장하고 있는 이커머스 시장에서 개인정보보호 문제는 제대로 된 마케팅의 부제로 판매율에 위협을 준다. 보다 지능적으로 고객에게 친화적인 정보를 제공하기 위해서는 보호되고 있는 고객의 정보를 통해서 마케팅을 할 수 있게 해야 한다. 이렇게 보호되고 있는 데이터로 마케팅을 진행하기에는 사용자의 정보가 부족하다. 그래서 MD의 능력이 출중해도 좋은 효과를 만들 수 없다. MD(MerchanDiser)에게 더 좋은 환경을 주기 위해서는 사용자의 정보를 다수 추가해줘야 한다. 사용자의 정보를 추가하기 위해선 예측 가능한 데이터를 만들 수 있는 다량의 데이터와 머신러닝 기법이 필요하다. 보통 이커머스에서는 하루에 800만 건 이상의 고객 방문 히스토리 기록한다. 하루 800만건 중 불필요한 데이터를 제거하고 저장했을 때 매일 500만건 이상의 데이터가 생성되고 1년이면 18억 건의 데이터가 된다. 이 빅데이터에 담긴 기록들은 사용자가 이커머스 안에서 이동했던 흔적들이다. 이 흔적들은 사용자의 행위를 분석하는 데 도움을 준다. 사용자가 어떤 물건을 구매했는지를 확인할 수 있고 이 물건이 어떤 카테고리에 속하는지를 알 수 있게 해준다. 그래서 분석가는 데이터에서 사용자의 행위를 분석하여 분류나 예측이 가능한 형태인지 조사할 수 있다. 데이터 조사를 위해 데이터가 저장되어 있는 HDFS에서 HIVE Table로 추가 생성한다. SQL로 고객 히스토리를 집계하고 분석하여 분류 가능한 데이터가 완성될 때까지 여러 조건으로 데이터를 생성한다. 다양한 조건으로 만들어진 고객들의 히스토리 데이터를 분석한 결과, 구매 데이터로 고객의 성향을 알 수 있다는 분석 결과를 얻을 수 있었다. 고객의 성향을 알 수 있는 데이터에서 마케팅이 가장 필요로 하는 정보인 성별을 예측할 수 데이터를 생성했다. 성별 데이터로 예측이 가능할 경우, 사용자는 이커머스에서 좀 더 성별에 적합한 정보를 얻을 수 있다. 여성은 여성이 많이 접근하는 상품을 볼 수 있고 남성은 남성이 좋아하는 상품에 대한 정보를 빠르게 획득할 수 있다. 연구를 위해 1년 동안 1회 이상의 거래를 발생시킨 고객 데이터를 HDFS에서 추출했다. 추출한 결과를 각각의 고객별로 집계하여 데이터를 구성했다. 집계된 데이터는 1,131,741명으로 확인했다. 집계 데이터는 3개의 알고리즘을 통해서 학습과 예측을 수행했다. 랜덤포레스트, XGboost, LSTM 그리고 스택킹 앙상블로 사용할 LightGBM과 과반수 알고리즘이다. 전처리 전의 데이터를 알고리즘에 사용했을 때는 68%의 예측률이 나왔다. 그 후 고객의 히스토리에 집중하여 전처리를 진행했고 고객의 구매 건수와 구경 건수를 필터 조건으로 데이터를 추가 생성했다. 구매 건수와 구경 건수 전처리를 통해 52만 명의 데이터를 86%의 예측률로 예측할 수 있었고 실사용 모델로 사용할 수 있다. |In this paper, we propose a method that predicts customer information protected by the Personal Information Protection Act in e-commerce using machine learning techniques and utilizes it for marketing. Ecommerce records the history of more than 8 million customers a day. This study analyzes customer data through additional aggregation of records contained in big data and sets targets for classification. As a result of analyzing the customer's historical data, If gender data can be predicted, users can get more gender-appropriate information from e-commerce. Women can see products that women access a lot, and men can quickly obtain information about products that men like. For the study, customer data that generated more than one transaction per year was extracted from HDFS. The extracted results were aggregated for each customer to form data. The aggregated data was confirmed to be 1,131,741 people. Aggregated data was learned and predicted through three algorithms. Random Forest, XGboost, LSTM, and LightGBM and majority algorithm to be used as stacking ensemble. When the data before preprocessing was used in the algorithm, a prediction rate of 68% came out. After that, pre-processing was carried out by focusing on the customer's history, and additional data was created using the number of customer purchases and the number of viewing as filter conditions. Through the preprocessing of the number of purchases and the number of viewing, the data of 520,000 people could be predicted with a prediction rate of 86%, and it could be used as a practical model.
URI
http://hanyang.dcollection.net/common/orgView/200000498423https://repository.hanyang.ac.kr/handle/20.500.11754/164233
Appears in Collections:
GRADUATE SCHOOL OF ENGINEERING[S](공학대학원) > ELECTRICAL ENGINEERING AND COMPUTER SCIENCE(전기ㆍ전자ㆍ컴퓨터공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE