380 0

시퀀스 생성 모델을 활용한 특허 문서의 계층적 다중 레이블 분류

Title
시퀀스 생성 모델을 활용한 특허 문서의 계층적 다중 레이블 분류
Other Titles
Hierarchical multi-label classification of patent documents using sequence generation mode
Author
윤승주
Alternative Author(s)
Yoon, Seung Joo
Advisor(s)
김종우
Issue Date
2021. 2
Publisher
한양대학교
Degree
Master
Abstract
현실에서 수집할 수 있는 문서들은 계층적인 구조를 이루고 있는 경우가 많다. 예로 들어 전자 문서들을 살펴보면 문서들은 다양한 카테고리로 구분이 가능하고 각각의 카테고리는 여러 개의 하위 계층의 카테고리로 세분화 할 수 있다. 특히 특허 데이터의 경우 가장 계층이 낮은 레이블을 기준으로 볼 때 문서를 분류할 수 있는 레이블 수는 굉장히 많으며 보다 정확한 분류를 하기 위해 다양한 방법의 연구가 진행되고 있다. 기존 연구에서는 특허 문서 분류에 대해서 멀티 레이블 분류 문제를 중심으로 연구가 진행되어 왔다. 하지만 이러한 연구 방법들은 레이블 간의 의존성을 무시하며 IPC (International Patent Classification) 레이블의 계층적 구조인 점을 충분히 적용하지 못하고 있다. 본 연구에서는 이러한 한계점을 극복하기 위해 기계번역에 좋은 성능을 보인 트랜스포머(Transformers)를 활용하여 계층적 멀티 레이블 분류 모델을 소개한다. 특허의 요약 문서를 활용하여 IPC 레이블을 섹션과 클래스, 서브클래스로 분류를 하였으며 기존에 특허 분류 연구에서 부족했던 멀티 레이블 간의 관계를 포함할 수 있었다. 본 연구는 특허 분류에 대한 성능 평가를 위하여 USPTO-2M 데이터를 사용했으며 최종적으로 특허 문서 분류 평가 지표인 Top Prediction, Three Guesses, All Categories 중에서 Top Prediction과 All Categories에서 기존 모델보다 분류 성능이 뛰어나다는 것을 확인했다.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/159566http://hanyang.dcollection.net/common/orgView/200000486120
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > BUSINESS INFORMATICS(비즈니스인포매틱스학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE