13 0

분산시스템 환경에서 가중치 기반 창업 지역 추천 알고리즘

Title
분산시스템 환경에서 가중치 기반 창업 지역 추천 알고리즘
Other Titles
Weight-based Recommendation Algorithm for Business Startup Region in Distributed System Environments
Author
김성식
Alternative Author(s)
Kim, SeongSik
Advisor(s)
조인휘
Issue Date
2019. 8
Publisher
한양대학교
Degree
Master
Abstract
서울시 상권분석서비스는 빅데이터에 기반하여 창업 과밀도, 매출 트렌드, 인구 현황 등 다양한 정보를 창업예정자 및 자영업자에게 제공하고 있다. 그러나 서울시 상권분석서비스는 직접적으로 특정 지역, 특정 업종을 추천할 수는 없다. 이 점에 착안하여 본 연구에서는 인구와 매출의 관계, 점포 과밀도를 바탕으로 창업 배후지를 추천하는 가중치 기반 창업 지역 추천 알고리즘을 구현하였다. 서울시 상권분석서비스에서 행정안전부 공공데이터포털을 통해 제공하는 상권 매출정보와 인구통계 등의 데이터를 이용하였고 Hadoop 빅데이터 분산처리 응용 소프트웨어를 사용함으로써 데이터 추출 및 가공에 소요되는 시간을 일정하게 하였다. Hive를 연동하여 Hadoop Distributed File System (HDFS)를 보다 직관적으로 조작하기 편리하게 하였고, rHive Library를 이용하여 데이터 분석 언어 R 과 Hive를 연동함으로써 R에서 Hadoop Distributed File System (HDFS)의 데이터를 분석할 수 있도록 하였다. 업종과 지역에 따라 매출과 인구 간의 상관관계가 존재함을 확인하였고, 창업 지역 추천에서 더 나아가 업종에 따른 주력 연령대, 인구 유형 분석이 가능하였다. 조건부 연산을 적용하여 약 17%의 성능 향상을 이루었다. 또한, 알고리즘에 이용되는 요소를 보다 세분화하여 약 22%의 추천 정확도 향상을 보였다.
Based on big data, Seoul City's Commercial Area Analysis Service provides various information, including overpopulation, sales trends and population status, to startups and self-employed people. However, Seoul City's commercial Area Analysis Service cannot directly recommend specific regions or industries. Based on this point, this study implemented a weight-based local recommendation algorithm to recommend a business startup region on the basis of population, sales, and store density. The commercial rights analysis service in Seoul used data such as sales information and demographics provided through the public data portal of the Ministry of Public Administration and Security and used Hadoop big data distributed processing application software to make constant the time required for data extraction and processing. Hive was linked to make Hadoop Distributed File System (HDFS) more intuitive to operate, and the data analysis languages R and Hive were linked using the rHive library to enable R to analyze data from the Hadoop Distributed File System (HDFS). It was confirmed that there was a correlation between sales and population according to industry and region, and further from the recommendation of start-up regions, analysis of major age groups and population types by industry was possible. The application of conditional operation resulted in a performance improvement of about 17%. In addition, the components used in the algorithm were more detailed, showing an improvement in recommended accuracy of about 22%.
URI
http://dcollection.hanyang.ac.kr/common/orgView/000000109990http://repository.hanyang.ac.kr/handle/20.500.11754/109512
Appears in Collections:
GRADUATE SCHOOL OF ENGINEERING[S](공학대학원) > ELECTRICAL ENGINEERING AND COMPUTER SCIENCE(전기ㆍ전자ㆍ컴퓨터공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE