102 0

사전학습 모델로부터 추출된 문장 임베딩을 활용한 특허 신규성 예측

Title
사전학습 모델로부터 추출된 문장 임베딩을 활용한 특허 신규성 예측
Other Titles
Patent Novelty Prediction Using Extracted Sentence Embeddings from Pretrained Model
Author
신진현
Alternative Author(s)
Jinhyun Shin
Advisor(s)
조인휘
Issue Date
2024. 2
Publisher
한양대학교 공학대학원
Degree
Master
Abstract
국문요지 본 연구에서는 머신 러닝 기법을 이용하여 특허 청구항 및 인용문헌 데이터로부터 특허 심사에서 심사되는 특허 요건 중 신규성 요건의 판단 결과를 예측하기 위한 기법을 제시한다. 이를 위하여, 유럽 특허청(EPO)의 특허 심사 Full-text data에 기반하여 생성된 PatentMatch 데이터 셋을 로우 데이터로서 이용하였다. 본 연구에서는, 트랜스포머 등 자연어 처리 기법을 이용하여 특허 요건의 판단 시 요구되는 특허 청구항 텍스트와 인용문헌 텍스트의 차이를 표현하기 위한 두 가지 방법을 제시한다. 나아가, 특허 심사 데이터에서 발생할 수 있는 Distribution Shift 및 Class Overlapping 문제를 밝히고, 이를 해소하기 위한 방법을 제시한다. 우선, 특허 심사 데이터에서 발생할 수 있는 Distribution Shift 문제의 경우, Sentence-Transformer 라이브러리에서 제공하는 Transformer-based Sequential Denoising Autoencoder(TSDAE)를 이용하여 Distribution Shift를 일부 해소할 수 있음을 보였다. 또한, 단순 오토인코더 및 LSTM 오토인코더를 청구항 및 인용문헌 차이 표현 벡터에 적용하면, 인코딩 벡터 간에는 Distribution Shift가 상당히 해소될 수 있음을 보였다. Class Overlapping 문제의 해소를 위해서는 k-NN 기법을 이용하여 유사 데이터들의 심사 결과를 연산하고, 이를 기반으로 실제 심사 결과를 모델링하여 머신 러닝 모델이 보다 완화된 Class Overlapping 환경에서 신규성 예측에 관한 학습을 수행할 수 있도록 모델을 구축하였다. 그러나, 심사관의 주관을 비롯하여 다양한 변수가 작용하는 특허 심사 환경에서 텍스트 데이터 및 텍스트 데이터의 변형을 기반으로 생성되는 데이터만으로는 Class Overlapping 문제를 비롯한 분류기 성능 저감 문제를 크게 해소하기는 어려우며, 추가적인 데이터의 도입을 통해 분류기 성능을 향상시키는 것이 필요할 것으로 보인다.
URI
http://hanyang.dcollection.net/common/orgView/200000724865https://repository.hanyang.ac.kr/handle/20.500.11754/189237
Appears in Collections:
GRADUATE SCHOOL OF ENGINEERING[S](공학대학원) > ELECTRICAL ENGINEERING AND COMPUTER SCIENCE(전기ㆍ전자ㆍ컴퓨터공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE