91 0

오픈소스 기반 공간 빅데이터와 기계학습을 활용한 주택가격 영향요인에 관한 연구

Title
오픈소스 기반 공간 빅데이터와 기계학습을 활용한 주택가격 영향요인에 관한 연구
Other Titles
A Study on the Influence Factors of Housing Price Using Open Source-based Spatial Big Data and Machine Learning : Focusing on the Comparison between Single-family Houses and Apartments in Seoul, Korea
Author
한재원
Alternative Author(s)
Han, Jae Won
Advisor(s)
이수기
Issue Date
2024. 2
Publisher
한양대학교 대학원
Degree
Doctor
Abstract
우리나라 주택정책의 주요 특징은 아파트 중심의 공급정책과 주택가격의 안정화로 정리할 수 있다. 이는 양질의 주택을 도심에 신속하게 공급함으로써 주거안정과 주택가격 안정화를 이루려는 정부의 노력이 반영된 결과이다. 그러나 아파트 중심의 주택공급 정책은 도시 미관을 훼손할 뿐만 아니라, 주거 다양성을 제한하였다. 또한 소비자의 아파트 선호는 주택시장에서 두드러지고 있으며, 이는 아파트를 단순히 주거 목적으로의 인식뿐만 아니라 자산 증식의 수단으로 고려하기 때문에 주택시장의 투기 유발 및 주택가격의 불안정성을 가속화하였다. 따라서 본 논문에서는 우리나라 주택시장이 갖는 문제가 아파트 있다고 보았으며, 이를 해결하기 위해 소비자 선호 관점에서 대표적인 주택유형인 단독주택과 아파트의 가격을 결정하는 특성 요인을 비교 분석한다. 이는 주택의 다양성 확보와 주택시장안정 재고를 위한 정책적 시사점을 도출하기 위함이다. 주택가격을 결정하는 요인은 다양하다고 알려져 있으며, 이를 설명하기 위해 다양한 주택가격 결정이론이 제시되고 있다. 대표적인 주택가격 이론으로 헤도닉 가격 이론(Hedonic Price Theory)이 있다. 헤도닉 가격 이론은 상품이나 서비스의 가격이 해당 품목의 다양한 특성에 어떻게 영향을 받는지를 설명하며, 이는 특성들의 기여도를 종합하여 정의된다. 이 이론은 소비자가 특정 속성에 얼마나 “Willingness to pay” 하는지를 분석하여 상품이나 서비스의 가치를 측정하는 데 활용된다. 또한, 헤도닉 가격 이론은 비 시장재인 환경재의 특성을 가격 특성에 반영하는 이론적 배경을 제공하기 때문에, 도시 환경이 사용자에 얼마나 중요한지를 이해하는데 도움을 제공한다. 그러나 헤도닉 가격 이론이 주장하는 가격을 설명하는 ‘다양한 특성’은 매우 모호하고 광범위하다. 헤도닉 가격 이론을 기반으로 주택가격 모형을 수립하려면 모형의 정확성과 설명력을 갖추기 위해 '정확'하고 '충분한' 매개변수가 필요하다. 그러나 주택가격에 영향을 미치는 다양한 요인과 비 시장재인 환경 특성을 정량적으로 측정하는 것은 어려우며, 소비자의 구매 의사를 정량적으로 측정하는 것은 상당한 노력이 필요하다. 이러한 이유로 주택가격 특성에 대한 연구들은 주로 제한된 매개변수 값과 모수적 방법으로 주택가격을 설명하였다. 그러나 모수적 방법론에서 가정하는 모집단의 정규 분포가 실제로 만족하는지는 미지수이다. 이는 헤도닉 가격 이론이 데이터의 분포에 매우 민감하며, 데이터가 해당 가정을 따르지 않을 경우 통계적 추론의 정확성이 감소할 수 있음을 의미한다. 따라서 헤도닉 가격 이론을 근거로 주택가격을 설명하기 위하여, 모형의 정확성과 설명력을 확보하는 매개변수가 요구된다. 그러나 주택가격을 설명하는 다양한 요인이 존재할 뿐만 아니라 비 시장재인 환경 특성을 정량적으로 측정하는 것은 상당히 어려운 것으로 알려져 있다. 또한, 주택가격 모형에 투입되는 매개변수가 가정을 충족하는지 확인하는 것은 중요하지만, 데이터의 검증을 위해 추가적인 복잡한 분석과 모형 검증이 발생할 수 있기 때문에 비효율적이다. 이에 본 연구에서는 ‘오픈소스 기반 공간 빅 데이터(Open Source-based Spatial Big Data)’와 ‘기계학습 알고리즘(Machine Learning Algorithm)’에 주목하였다. 빅 데이터는 대량의 데이터를 다루는 비모수적 방법을 채택한다. 이는 복잡한 데이터의 패턴이나 분포를 포착하는데 유연할 뿐만 아니라, 모형의 가정을 최소화하기 때문에 다양한 유형의 데이터를 적용하기에 유용하다. 또한 비모수적 방법은 데이터의 크기에 민감하지 않고 강건하게 작동할 수 있기 때문에, 효율적인 모델링이 가능하고, 높은 예측력을 제공한다. 뿐만 아니라 최신의 빅데이터 관련 기술과의 연계가 가능하며, 이를 활용한 자동화 및 분석의 확장성을 제공한다. 또한 이는 데이터가 적은 상황에서도 효과적인 학습을 가능하게 한다. 이에 본 연구에서는 오픈 소스 기반 위치 정보가 포함된 가로경관 이미지 (Street View Images)와 관심지점(POI) 데이터를 활용한다. 또한, 최신의 공간 빅데이터 분석을 위하여 해석 가능한 기계학습을 적용하였으며, 구체적으로 Linear Regression, Random Forest, Gradient Boosting Machine, eXtra Gradient Boost(XGboost) 등 4가지 머신러닝 알고리즘을 이용하여 단독주택과 아파트의 가격 예측 값을 비교 분석한다. 주택가격 결정 요소를 분석하기 위해 사용한 데이터는 2017년부터 2019년까지 3년 동안 서울에서 거래된 14,731건의 단독주택 거래 가격과 200,053건의 아파트 실거래 가격을 활용한다. 거래가 발생한 주택의 내부 속성은 단독주택 거래 가격 제공 기관과 네이버 부동산 웹 서비스를 활용하였으며, 근린 환경 속성을 계량화하기 위해 주택거래 발생지점 또는 아파트 단지 주변 400m 반경에 포함하는 속성 값들을 측정하였다. 측정된 속성 값을 헤도닉 모형에 적용하였으며, 기계학습 알고리즘과의 비교 분석을 수행한다. 분석결과 GSV 가로뷰 이미지 자료와 관심지점(POI)자료가 단독주택 가격 및 아파트 가격 특성을 설명하는 것을 확인하였다. 추가적으로 기계학습을 통한 주택가격 예측을 수행한다. 분석 결과 단독주택 가격 예측 성능에서는 GBM과 XGBoost가 LR과 RF보다 우수한 성능을 보였다. 특히 GBM의 세 가지 성능 지표인 Mean Squared Error (MSE), Mean Absolute Error (MAE) 및 Mean Absolute Percent Error (MAPE)는 XGBoost보다 우수한 것으로 나타났다. 또한, 해석 가능한 기계학습 방법을 활용하여 중요도 분석, 비선형관계분석, 상호작용효과 분석을 하여 헤도닉 가격 모형의 적용 결과와 비교하였으며, 주택가격을 결정하는 속성들의 유사성과 예측력의 우수성을 확인하였다. 본 연구의 결과는 공간 정보 빅데이터 및 기계 학습 알고리즘이 주택가격을 결정하는 외부환경 특성을 이해하는데 유용할 뿐만 아니라, 도시 환경 속성을 측정하고 분석하기 위한 대안적인 방안을 제시할 수 있음을 시사한다.|The main characteristics of Korea's housing policy can be summarized as an apartment-centered supply policy and housing price stability. This results from the government's efforts to ensure price and residential stability in the housing market by quickly supplying high-quality apartment housing. However, apartment-centered housing supply policies faced criticism for damaging the city's aesthetics and limiting the unique individuality and diversity of housing. Additionally, consumers' preference for apartments is strengthening, contributing to the increase in demand and supply of apartments in the housing market. This characteristic of consumers' preference for apartments has led to housing purposes and a means of increasing assets, causing speculation in the housing market and instability in housing prices. Therefore, this study seeks to propose measures to secure diversity in housing and reconsider housing market stability from an urban planning and design perspective. To this end, we would like to compare and analyze the characteristic factors determining the prices of single-family houses and apartments, which are representative housing types. It is known that various factors determine housing prices and different housing price determination theories are proposed to explain this. A representative housing price theory is the Hedonic Price Theory. Hedonic Price Theory describes how the price of a product or service is affected by the various characteristics of the item and is defined by combining the contributions of the traits. This theory measures the value of a product or service by analyzing how much consumers are willing to pay for specific attributes. In addition, Hedonic Price Theory provides a theoretical background that reflects the characteristics of environmental goods and non-market goods in price characteristics, thereby helping to understand how important the urban environment is to users. However, the 'various characteristics' that explain prices claimed by the hedonic price theory are vague and broad. To establish a housing price model based on Hedonic Price Theory, 'accurate' and 'sufficient' parameters are required to ensure the accuracy and explanatory power of the model. However, it isn't easy to quantitatively measure various factors that affect housing prices and environmental characteristics that are non-market goods, and quantitatively measuring consumers' purchase intention requires considerable effort. For this reason, studies on housing price characteristics mainly explained housing prices using limited parameter values and parametric methods. However, whether the normal distribution of the population assumed in the parametric methodology is satisfied is unknown. This means that Hedonic Price Theory is susceptible to the distribution of data. If the data does not follow its assumptions, the accuracy of statistical inference may be reduced. Therefore, parameters that ensure the accuracy and explanatory power of the model are required to explain housing prices based on the hedonic price theory. However, not only are there various factors that explain housing prices, but it is also quite tricky to measure environmental characteristics that are non-market goods quantitatively. In addition, it is essential to check whether the parameters input into the housing price model meet the assumptions. Still, it is inefficient because additional complex analysis and model verification may occur to verify the data. Accordingly, this study focused on 'Open Source-based Spatial Big Data' and 'Machine Learning Algorithm'. Big data adopts non-parametric methods to deal with large amounts of data. This is not only flexible in capturing patterns or distributions of complex data but is also helpful for applying to various types of data because it minimizes model assumptions. Additionally, non-parametric methods are not sensitive to the data size and can operate robustly, enabling efficient modeling and providing high predictive power. In addition, it is possible to connect with the latest big data-related technologies and provides scalability for automation and analysis using this. Additionally, this enables effective learning even in situations with little data. Accordingly, this study utilizes street view images and point-of-interest (POI) data containing open source-based location information. In addition, interpretable machine learning was applied to analyze the latest spatial big data. Specifically, four machine learning algorithms, such as Linear Regression, Random Forest, Gradient Boosting Machine, and eXtra Gradient Boost (XGboost), were used to determine the prices of single-family homes and apartments. Compare and analyze predicted values. The data used to analyze housing price determinants utilizes the transaction prices of 14,731 single-family homes and the actual transaction prices of 200,053 apartments traded in Seoul over three years from 2017 to 2019. To determine the internal properties of houses where transactions occurred, the single-family house transaction price provider and Naver Real Estate web service were utilized, and to quantify the properties of the neighborhood environment, property values included in a 400m radius around the housing transaction location or apartment complex were measured. The measured property values were applied to the hedonic model, and comparative analysis with machine learning algorithms was performed. As a result of the study, it was confirmed that GSV street view image data and point of interest (POI) data explain the characteristics of single-family house prices and apartment prices. Additionally, housing price prediction is performed through machine learning. As a result of the analysis, GBM and XGBoost showed better performance than LR and RF in single-family home price prediction performance. In particular, GBM's three performance metrics, Mean Squared Error (MSE), Mean Absolute Error (MAE), and Mean Absolute Percent Error (MAPE), were found to be superior to XGBoost. In addition, using interpretable machine learning methods, I performed importance analysis, non-linear relationship analysis, and interaction effect analysis. I compared them with the results of the hedonic price model, confirming the similarity of the attributes that determine housing prices and the excellence of the predictive power. The results of this study suggest that spatial information big data and machine learning algorithms help understand the external environmental characteristics that determine housing prices and can provide an alternative method for measuring and analyzing urban ecological properties.
URI
http://hanyang.dcollection.net/common/orgView/200000728154https://repository.hanyang.ac.kr/handle/20.500.11754/188975
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > URBAN PLANNING(도시공학과) > Theses (Ph.D.)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE