218 0

Semantic Enriched Category Recommendation System for Large-Scale Emails Exploiting Big Data Processing Technologies

Title
Semantic Enriched Category Recommendation System for Large-Scale Emails Exploiting Big Data Processing Technologies
Author
김재익
Advisor(s)
이동호
Issue Date
2017-02
Publisher
한양대학교
Degree
Master
Abstract
오늘날, 인터넷과 웹의 발전으로 이메일은 중요한 정보 전달과 의사소통 수단으로 사용된다. 예를 들어, 회사 업무, 개인의 사적인 대화, 광고, 청구서 등과 관련하여 다양하게 사용되고 있다. 하지만 이메일 사용량이 증가함에 따라 이메일의 양이 많아지게 되며, 사용자들은 대량의 이메일을 관리하는데 어려움을 겪는다. 이러한 대량의 이메일을 효율적으로 사용하기 위해 웹 메일 클라이언트에서 기본적인 카테고리를 자동으로 생성해 준다. 하지만, 카테고리 제공 시 기본 카테고리 이 외의 카테고리는 사용자가 직접 설정해야 하는 번거로는 작업이 필요하다. 또한, 이메일 카테고리를 제공 할 때 이메일 컨 텐츠를 고려하지 않기 때문에 정확한 카테고리 생성이 불가능 한 문제점이 발생된다. 또한 이메일 양이 증가할수록, 기존의 단일 환경인 RDBMS 시스템으로 대량의 이메일 데이터를 처리하는 작업은 비효율 적이므로, 빅데이터 처리 시스템의 도입이 필요하다. 본 논문에서는 빅 데이터 처리 기술을 활용하여 대용량의 이메일 컨텐츠를 클러스터링 하고, 클러스터링 결과로 나온 단어에 의미를 부여한 카테고리 추천 시스템을 제안한다. 기존 단일 환경에서 처리가 불가능한 대용량의 이메일 데이터를 빅 데이터 처리 기술을 활용하여 분산 환경에서 효율적으로 처리 할 수 있다. 이메일 카테고리를 추천 할 때, 이메일 데이터를 LDA 알고리즘에 적용하여 분산 환경에서 클러스터링 작업을 한다. 제한하는 시스템에서 각 단어의 의미를 Flickr의 Tag Cluster를 이용하여 분석하고, 클러스터를 대표하는 단어를 추출하여 이메일 카테고리로 추천한다. 마지막으로, 다양한 비교 실험을 통하여 단일 환경과 분산 환경의 차이, 각 알고리즘 별 성능 차이를 통해 제안하는 빅데이터 처리 시스템의 우수성을 보인다.|Nowadays, people who use the Internet have at least one email account. Email is important means of information sharing and communications. For example, email is used for business communications or business advertisements, and personal use, such as checking bills or keeping in touch with others. However, it has become difficult to manage email as the amount of email usage increases. In order to use these large amounts of e-mail efficiently, It automatically generates basic categories in Web mail client. However when offering categories, for categories other than the basic category, cumbersome work that the user needs to set manually is necessary. Also, when providing e-mail categories, contents of e-mail are not taken into consideration, so that it is impossible to create accurate categories. Furthermore as the amount of e-mail increases, the task of processing a large amount of e-mail data in a conventional single environment RDBMS system is inefficient, the introduction of big data processing system is necessary. In this thesis, we propose a semantic enriched category recommendation system for largescale emails exploiting big data technologies. First of all, an email pre-processing process is performed. And then, through Latent Dirichlet Allocation (LDA) algorithm from Mahout the email contents in distributed server environment are clustered. A word representing the cluster, the category, from extracted cluster should determine. That way, the semantic relationships of cluster inner words analyze using the Flickr. Finally, the semantic enriched category is recommended to user.; Nowadays, people who use the Internet have at least one email account. Email is important means of information sharing and communications. For example, email is used for business communications or business advertisements, and personal use, such as checking bills or keeping in touch with others. However, it has become difficult to manage email as the amount of email usage increases. In order to use these large amounts of e-mail efficiently, It automatically generates basic categories in Web mail client. However when offering categories, for categories other than the basic category, cumbersome work that the user needs to set manually is necessary. Also, when providing e-mail categories, contents of e-mail are not taken into consideration, so that it is impossible to create accurate categories. Furthermore as the amount of e-mail increases, the task of processing a large amount of e-mail data in a conventional single environment RDBMS system is inefficient, the introduction of big data processing system is necessary. In this thesis, we propose a semantic enriched category recommendation system for largescale emails exploiting big data technologies. First of all, an email pre-processing process is performed. And then, through Latent Dirichlet Allocation (LDA) algorithm from Mahout the email contents in distributed server environment are clustered. A word representing the cluster, the category, from extracted cluster should determine. That way, the semantic relationships of cluster inner words analyze using the Flickr. Finally, the semantic enriched category is recommended to user.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/124243http://hanyang.dcollection.net/common/orgView/200000429749
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE & ENGINEERING(컴퓨터공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE