401 0

커머스 서비스에서 텍스트 컨텐츠 토픽 단어 추출 및 클래스 분류

Title
커머스 서비스에서 텍스트 컨텐츠 토픽 단어 추출 및 클래스 분류
Other Titles
Text content topic word extraction and classifica-tion of commerce service
Author
우태균
Alternative Author(s)
Tae Gyun, Woo
Advisor(s)
조 인 휘
Issue Date
2022. 2
Publisher
한양대학교
Degree
Master
Abstract
커머스 서비스에서 다루는 상품 컨텐츠는 사진과 텍스트로 이루어져 있다. 이중 텍스트는 상품에 대한 많은 정보를 내포하고 있으나 토큰화되어 있지 않은 텍스트 컨텐츠는 단순히 상품을 소개하는 글에 지나지 않는다. 이를 검색, 추천 등의 시스템에 사용하기 위해서는 텍스트로부터 정보를 추출하여 이용하여야 한다. 이러한 데이터를 추출하기 위해 인력에 의존하게 된다면 서비스 초기를 지나 광범위한 상품을 다루는 커머스 서비스에서는 심각한 자원 손해를 보게 된다. 고객에게 상품을 설명하기 위해 작성된 텍스트 컨텐츠에는 이미 유용한 정보들이 충분히 녹아 있는 경우가 많다. ‘우아한 형제들’에서 서비스 중인 ‘B마트’의 데이터를 이용하여 이러한 상품 텍스트 컨텐츠로부터 주요 단어를 추출하는 것을 제안한다. 추출된 정보는 2차적인 활용성에서 가치를 증명한다. 상품을 고객에게 전시하기 위한 카테고리 분류 작업은 상품의 특성을 파악하고 제자리에 맞는 카테고리를 선정하는 것이 중요하다. 특히나‘B마트’ 서비스의 경우 전시를 위한 카테고리 등록이 필수이다. 이를 관리하기 위한 인력 투입은 점점 늘어나는 상품과 카테고리의 활용도로 인해 계속해서 증가하고 있다. 상품으로부터 주요 단어를 추출하기 위해 TF-IDF와 LDA 모델을 이용한다. 두 모델은 각기 다른 특성의 가중치 값을 출력하며 이를 조합하여 보다 유의미한 주요 단어를 제공할 수 있다. 이 과정에서 발생한 TF-IDF 값과 LDA의 토픽별 가중치 값은 카테고리 분류를 위한 입력 데이터로 활용될 수 있다. 동일 상품이더라도 여러 카테고리에 제공 가능한 ‘B마트’의 특성을 높이기 위한 하이브리드 모델을 제안한다. 하이브리드 모델은 주요 단어 추출 과정과 이때 발생한 입력 데이터를 기반으로 Support Vec-tor Machine, Naive Bayes, Artificial Neural Network 세 모델을 실험한다. 각 모델의 특성에 맞는 최적화된 입력 데이터를 선정하여 LDA -> SVM, TF-IDF -> ANN, 단어 빈도수 -> Naive Bayes 세 조합의 모델을 제안한다. 세 모델은 각자 최적의 결과를 출력한다. 세 모델의 혼동행렬을 이용하여 주로 잘못 예측하게 되는 케이스를 수치화하여 유사 카탈로그로 분류한다. 이 과정을 통해 카탈로그 사이의 유사성을 발견하였고 특정 카탈로그에 대해 오류로 출력한 비율을 이용한 유사도는 하이브리드 모델에서 최종적으로 Top-3 카테고리를 제공하는 데 사용된다. 연구 결과 주요 단어 추출 과정에서 TF-IDF의 단점인 빈번히 사용되는 주요 단어의 가중치 값이 낮음과 LDA의 단점인 토픽 내에서 자주 사용된 단어의 가중치 값이 높아 생기는 문제가 상호 보완됨을 보였다. 클래스 분류는 각 모델별 정확도를 계산하고 혼동행렬을 이용한 모델별 유사 카테고리로 인해 상승할 수 있는 정확도를 파악하였다. LDA -> SVM 모델은 기존 83.9%에서 0.8% 상승하였고, TF->IDF 모델은 높은 정확도인 97.0%로 구현되었으며 유사 카테고리 적용 시 0.1%의 상승을 보였다. 단어 빈도수 -> Naive Bayes 모델은 0.887%에서 0.8% 상승한 효과를 보았다. 하이브리드 모델은 세 모델의 결과를 종합하여 출력했을 때 98.3%의 높은 정확도를 보여 상품 정보를 시스템화하는데 효용성이 있음을 보였다. |The product content covered by the commerce service consists of photos and text. Text contains a lot of information about the product, but text content that is not tokenized is nothing more than an introducing of the product. In order to use this in systems such as search and recommendation, information must be extracted from text and used. If you rely on manpower to ex-tract these data, you will suffer serious resource losses in com-merce services. In many cases, useful information is already suf-ficiently incorporated in text content created to explain the prod-uct to the customer. This thesis suggests to extract key words from these product text contents using data from 'B Mart', which is being serviced by 'Woowa Bros'. The extracted information proves its value in secondary usability. In the category classification work to display products to custom-ers, it is important to identify the characteristics of the product and select the right category in place. In particular, in the case of the "B Mart" service, category registration for exhibition is essential. The input of manpower to manage this continues to increase due to the increasing utilization of products and catego-ries. TF-IDF and LDA models are used to extract key words from products. The two models output weight values of different char-acteristics and can combine them to provide more meaningful main words. The TF-IDF value generated in this process and the weight value for each topic of the LDA may be used as input data for category classification. A hybrid model is proposed to enhance the characteristics of 'B Mart' that can be provided in various categories even if it is the same product. The hybrid model experiments with three models of Support Vector Machine, Naive Bayes, and Artificial Neural Net-work based on the main word extraction process and the input data generated at this time. By selecting optimized in-put data suitable for the characteristics of each model, we pro-pose a model of three combinations: LDA -> SVM, TF-IDF -> ANN, and Word Frequency -> Naive Bayes. Each of the three models outputs optimal results. Cases that are mainly incorrectly predicted using the confusion matrix of the three models are quantified and classified into similar catalogs. Through this process, similarity between catalogs was discovered, and similarity using the ratio output as an error for a specific catalog is finally used to provide the Top-3 category in the hybrid model. As a result of the study, it was shown that the problems caused by the low weight value of frequently used major words, which are disadvantages of TF-IDF, and the high weight value of frequently used words within the topic, which is the disad-vantage of LDA, were complemented. Class classification calculated the accuracy of each model and identified the accuracy that could increase due to similar catego-ries for each model using the confusion matrix. The LDA->SVM model rose 0.8% from 83.9%, the TF->IDF model was imple-mented with a high accuracy of 97.0%, and showed an increase of 0.1% when applying similar categories. The Word Frequency -> Naive Bayes model showed an effect of increasing 0.887% from 0.88%. The hybrid model showed a high accuracy of 98.3% when the results of the three models were synthesized and output, indicating that it was useful in systemizing product infor-mation.
URI
http://hanyang.dcollection.net/common/orgView/200000596564https://repository.hanyang.ac.kr/handle/20.500.11754/168393
Appears in Collections:
GRADUATE SCHOOL OF ENGINEERING[S](공학대학원) > ELECTRICAL ENGINEERING AND COMPUTER SCIENCE(전기ㆍ전자ㆍ컴퓨터공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE