1128 0

콘텐츠 관련 상품을 위한 신경망과 가중치 기반의 키워드 추천 알고리즘

Title
콘텐츠 관련 상품을 위한 신경망과 가중치 기반의 키워드 추천 알고리즘
Other Titles
Neural Network and Weight-based Keyword Recommendation Algorithm for Content-related Products
Author
김진한
Alternative Author(s)
Jin Han, Kim
Advisor(s)
조인휘
Issue Date
2021. 2
Publisher
한양대학교
Degree
Master
Abstract
현재 포털 사이트의 콘텐츠 광고는 사용자의 관심사와 키워드 매칭 등의 알고리즘을 통하여 광고 노출이 이루어지고 있다. 그러나 이 중 키워드 매칭 방식은 콘텐츠 내 존재하는 키워드를 통해 광고 매칭을 하는 것으로 주제와 관련 없는 키워드의 광고가 노출되거나, 동음이의어를 처리하지 못하는 문제가 있다. 콘텐츠 광고를 집행하기 위해서는 광고주가 검색 광고용 키워드를 구매하면 함께 진행할 수 있다. 하지만 동음이의어로 인해 관련 없는 단어가 상위 광고를 목적으로 경쟁하게 되면 의미 없이 광고 비용의 상승을 초래한다. 예를 들어 음악 스트리밍 앱 ‘멜론’과 과일 ‘멜론’은 주제 구분 없이 구매되고 매칭된다. 콘텐츠에서 과일 ‘멜론’에 관한 이야기를 하고 있다면 광고도 과일 ‘멜론’에 대해 노출되어야 하지만 실제는 그렇지 않다. 이러한 광고 불일치는 광고 클릭률(Click Rate) 저하로 이어지며 광고주 광고 효율뿐만 아니라 CPC(Cost per Click) 방식으로 수익을 내는 광고 플랫폼을 제공하는 기업과 콘텐츠 제공자에게는 수익도 감소한다. 본 논문에는 상기의 문제를 해결하기 위해 인공신경망 기법을 이용하여 쇼핑 키워드 추천 알고리즘을 제안한다. 이 알고리즘은 TF-IDF(Term Frequency - Inverse Document Frequency)를 이용하여 키워드의 집합을 사전형태(Dictionary)로 추출하고, 사전 정의된 쇼핑 카테고리 DB 내에 일치하는 키워드를 추천한다. 단, 이 경우 콘텐츠에 부합하지 않은 키워드가 추천될 수 있기에 쇼핑 카테고리별 가중치를 구해야 한다. 이때 가중치는 웹 콘텐츠를 LSTM(Long Short-Term Memory)을 이용한 주제 분류 모델에 입력하여 쇼핑 카테고리별로 산출한다. 산출된 가중치는 추출한 키워드 집합에 적용한다. LSTM 기반의 주제 분류 모델은 웹에서 수집한 15만 개의 뉴스 데이터를 Word2Vec으로 단어별 Vector를 산출하고 기계학습하여 생성된다. Word2Vec에서 추출하여 LSTM에 학습한 단어의 개수에 따라 알고리즘의 정확도가 달라진다. 이 점을 확인하기 위해 Word2Vec에서 추출한 단어 중 자주 사용되는 상위 단어의 개수를 100개, 500개, 1,000개, 2,000개, 5,000개, 20,000개, 50,000개, 100,000개, 추출단어 전체 순으로 구분하여 알고리즘의 정확도를 평가한다. 5,000개를 사용하였을 때부터 정확도가 99%에 도달한다. 학습에 사용된 단어의 개수가 많을수록 시스템에 필요한 메모리 공간이 늘어나기 때문에 정확도가 99%에 도달하는 5,000개의 Word2Vec 추출단어가 본 시스템에 가장 적합함을 알 수 있다. 또한, 포털 사이트에서 수집한 1,500개의 실제 웹 콘텐츠를 대상으로 포털 사이트에서 제공하는 광고와 제안 알고리즘에서 추천한 키워드와의 매칭률을 비교해 실제 서비스 가능성을 평가한다. 그 결과 수집한 웹 콘텐츠와 포털 사이트의 추천광고와 매칭률은 70%였으나, 제안 알고리즘에서 추천된 키워드와 매칭률은 90%로 나타나 20%의 유의미한 성능향상을 보인다. 실험 결과 본 논문에서 제안한 광고 키워드 추천 알고리즘이 시장에서 충분히 효용성이 있음을 입증하였다.; Currently, content advertisements on portal sites are exposed through algorithms such as matching users' interests and keywords. However, in the keyword matching method, advertisement matching is performed through keywords existing in the content, and there is a problem in that an advertisement of a keyword not related to the subject is exposed or a homophone is not processed. In order to make a content advertisement, the advertiser can proceed with the purchase of keywords for search advertisements. However, if an unrelated word competes for the purpose of a higher advertisement due to a homophone, it causes a meaningless increase in advertising costs. For example, the music streaming app “Melon” and the fruit “Melon” are purchased and matched regardless of subject classification. If the content is talking about a fruit “Melon,” the advertisement should also be exposed about the fruit “melon,” but it is not. This ad mismatch leads to a decrease in the ad click rate, and not only advertiser advertising efficiency, but also decrease profits for companies and content providers that provide advertising platforms that generate revenue through a CPC (cost per click) method. In this paper, to solve the above problem, we propose a shopping keyword recommendation algorithm using an artificial neural network technique. This algorithm extracts a set of keywords in a dictionary form using TF-IDF (TermFrequency-Inverse Document Frequency) and recommends matching keywords in a predefined shopping category DB. However, in this case, since keywords that do not match the content may be recommended, weights for each shopping category must be obtained. At this time, the weight is calculated for each shopping category by inputting the web content into the subject classification model-II- using LSTM(Long Short-Term Memory). The calculated weight is applied to the extracted keyword set. The LSTM-based subject classification model is generated by calculating a vector for each word using Word2Vec and machine learning 150,000 news data collected from the web. The accuracy of the algorithm varies depending on the number of words extracted from Word2Vec and learned in LSTM. To check this point, the number of frequently used high-order words among words extracted from Word2Vec is divided in the order of 100, 500, 1,000, 2,000, 5,000, 20,000, 50,000, 100,000, and all extracted words and evaluates the accuracy of the algorithm. The accuracy reaches 99% from using 5,000 pieces. As the number of words used for learning increases, the memory space required for the system increases, so it can be seen that 5,000 Word2Vec extracted words with accuracy reaching 99% are most suitable for this system. In addition, the actual service possibility is evaluated by comparing the matching rate between the advertisement provided by the portal site and the keyword recommended by the suggestion algorithm targeting 1,500 actual web contents collected by the portal site. As a result, the recommended advertisement and matching rate of the collected web content and portal site was 70%, but the keyword and matching rate recommended by the suggestion algorithm was 90%, showing a significant performance improvement of 20%. Experimental results prove that the advertisement keyword recommendation algorithm proposed in this paper is sufficiently effective in the market.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/159761http://hanyang.dcollection.net/common/orgView/200000486384
Appears in Collections:
GRADUATE SCHOOL OF ENGINEERING[S](공학대학원) > ELECTRICAL ENGINEERING AND COMPUTER SCIENCE(전기ㆍ전자ㆍ컴퓨터공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE