사전학습 모델로부터 추출된 문장 임베딩을 활용한 특허 신규성 예측
- Title
- 사전학습 모델로부터 추출된 문장 임베딩을 활용한 특허 신규성 예측
- Other Titles
- Patent Novelty Prediction Using Extracted Sentence Embeddings from Pretrained Model
- Author
- 신진현
- Alternative Author(s)
- Jinhyun Shin
- Advisor(s)
- 조인휘
- Issue Date
- 2024. 2
- Publisher
- 한양대학교 공학대학원
- Degree
- Master
- Abstract
- 국문요지
본 연구에서는 머신 러닝 기법을 이용하여 특허 청구항 및 인용문헌 데이터로부터 특허 심사에서 심사되는 특허 요건 중 신규성 요건의 판단 결과를 예측하기 위한 기법을 제시한다. 이를 위하여, 유럽 특허청(EPO)의 특허 심사 Full-text data에 기반하여 생성된 PatentMatch 데이터 셋을 로우 데이터로서 이용하였다. 본 연구에서는, 트랜스포머 등 자연어 처리 기법을 이용하여 특허 요건의 판단 시 요구되는 특허 청구항 텍스트와 인용문헌 텍스트의 차이를 표현하기 위한 두 가지 방법을 제시한다.
나아가, 특허 심사 데이터에서 발생할 수 있는 Distribution Shift 및 Class Overlapping 문제를 밝히고, 이를 해소하기 위한 방법을 제시한다. 우선, 특허 심사 데이터에서 발생할 수 있는 Distribution Shift 문제의 경우, Sentence-Transformer 라이브러리에서 제공하는 Transformer-based Sequential Denoising Autoencoder(TSDAE)를 이용하여 Distribution Shift를 일부 해소할 수 있음을 보였다. 또한, 단순 오토인코더 및 LSTM 오토인코더를 청구항 및 인용문헌 차이 표현 벡터에 적용하면, 인코딩 벡터 간에는 Distribution Shift가 상당히 해소될 수 있음을 보였다.
Class Overlapping 문제의 해소를 위해서는 k-NN 기법을 이용하여 유사 데이터들의 심사 결과를 연산하고, 이를 기반으로 실제 심사 결과를 모델링하여 머신 러닝 모델이 보다 완화된 Class Overlapping 환경에서 신규성 예측에 관한 학습을 수행할 수 있도록 모델을 구축하였다. 그러나, 심사관의 주관을 비롯하여 다양한 변수가 작용하는 특허 심사 환경에서 텍스트 데이터 및 텍스트 데이터의 변형을 기반으로 생성되는 데이터만으로는 Class Overlapping 문제를 비롯한 분류기 성능 저감 문제를 크게 해소하기는 어려우며, 추가적인 데이터의 도입을 통해 분류기 성능을 향상시키는 것이 필요할 것으로 보인다.
- URI
- http://hanyang.dcollection.net/common/orgView/200000724865https://repository.hanyang.ac.kr/handle/20.500.11754/189237
- Appears in Collections:
- GRADUATE SCHOOL OF ENGINEERING[S](공학대학원) > ELECTRICAL ENGINEERING AND COMPUTER SCIENCE(전기ㆍ전자ㆍ컴퓨터공학과) > Theses (Master)
- Files in This Item:
There are no files associated with this item.
- Export
- RIS (EndNote)
- XLS (Excel)
- XML