Repository at Hanyang University: 문서 내 명사를 이용한 특징벡터 구축이 유사도 측정 방법에 미치는 영향 분석

95 0

문서 내 명사를 이용한 특징벡터 구축이 유사도 측정 방법에 미치는 영향 분석

Other Titles: Analyzing the effects of building noun feature vectoron similarity measure methods

Abstract: 단어는 문서를 나타내는 가장 기본적인 요소이기 때문에 문서 내 단어를 이용해 특징벡터(feature vector)를 구축하여 문서를 표현하는 방법은 널리 사용된다. 문서에서 추출한 특징벡터를 활용하여문서 간 유사도를측정하고 이를 기반으로 한 유사 문서의 검색과 추천, 군집화 등의 다양한 문서처리 방법이 여러 분야에서 연구되었고, 현재도 많은 연구가 활발히 진행 중이다. 본 논문에서는 문서 내 명사는 문장을 대표하는 주어나 목적이 되는 목적어를 나타내는 중요한 역할을 한다는 가정을 바탕으로 문서 내명사만을 이용하여 특징벡터를 구축하는 방법이 실제 유사도 측정 방법의 성능에 어떠한 영향을 미치는 지 분석한다. 이를 위해 문서 내 명사만을 이용한 방법과 문서 내 모든 구성요소를 이용한 방법을 사용해각각의 특징벡터를 구축해각 특징벡터를 유사도 측정 방법에 적용하여 유사도 측정 성능에 어떠한 영향을 미치는지 분석하였다. 그 결과 문서 내 명사만을 이용하여 특징벡터를 구축한 경우의 유사도 측정결과가 상대적으로 높은 성능을 보이는 것을 확인하였고, 이를 통해문서 내 명사만을 이용하여 특징벡터 를 구축하는 방법의 효율성과 타당성을 보였다.

URI: https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE02049449 https://repository.hanyang.ac.kr/handle/20.500.11754/185916

한양대학교 리포지터리는 국립중앙도서관 OAK 보급사업으로 구축되었습니다. Feedback 개인정보처리방침

Hanyang University repository