Contrastive Loss 를 이용한 특허기술 검색 시스템의 효과적인 탐색 모델

Title
Contrastive Loss 를 이용한 특허기술 검색 시스템의 효과적인 탐색 모델
Other Titles
An effective search model for patent search system using contrastive loss
Author
조시헌
Advisor(s)
손승우
Issue Date
2023. 2
Publisher
한양대학교
Degree
Master
Abstract
최근 인공지능 기술이 발달함에 따라 딥러닝 모델을 활용하여 특허기술 선행 조사를 자동화하는 연구가 진행되었다. 특허 기술 선행 조사 시 변리사들이 직접 선행특허를 조사하여 유사한 특허와 기술 동향을 파악해낸다. 하지만 특허 사전 조사 과정에서 시간 소모가 매우 커 자동화 시스템 보급이 시급하다. 선행 연구들은 공통 단어의 사용 비율을 계산하는 자카드 유사도로 분석하여 유사 특허 탐색 시스템을 구축하는 방법과 자연어처리 모델로 잠재 공간상에 벡터화해 유사한 특허를 추천하도록 만들어진다. 하지만 단어의 문맥적 특징을 파악하지 못하는 문제점과 같은 특허 분류번호로 구분되고 내용도 동일하지만 글의 단어 구성에 따른 유사도로 비교하기 때문에 추천 특허 탐색 시 포함되지 못하는 단점이 있다. 따라서 본 연구에서는 각 특허의 문맥 특성을 파악하여 탐색 범위를 줄여주는 모델을 만들기 위해 특허로 사전학습이 된 PatentBERT 로 단어를 벡터화하고 Contrastive Loss 함수를 이용해 특허의 탐색 범위를 축소해주는 것을 제안한다. Contrastive Loss 사용에 따라서 자카드 유사도와 유클리드 거리의 상관관계가 변화하는지 살펴보기 위해 Harvard Dataverse 에서 제공하는 USPTO 데이터를 이용해서 모델을 학습한다. 특허 탐색 범위 축소에 도움을 줄 수 있는지 확인하기 위해 타깃 노드를 지정한다. 이후 선택된 집합 안에 신규성침해 위험 특허를 포함하는지 비교한다. 본 모델은 특허 사전조사 범위 축소 외에도 유사한 내용의 논문 선별이나 표절 검사 등 다양한 영역에서 사용할 수 있다.|A new patent requires novelty, inventive steps, and industrial applicability. So before submitting the patent, a prior investigation of the existing relevant patents should be necessary. During the prior investigation, patent attorneys directly investigated the prior patents to identify similar patents and technology trends. However, since it is a time-consuming task. it became urgent to distribute the automation system. With the recent development of artificial intelligence technology, it has been conducted to automate the prior investigations of patent technology using a deep learning model. Previous studies have established similar patent search systems by analyzing the similarity of Jaccard similarity. which calculates the fraction of the same words between two documents. Alternatively, it was made to recommend similar patents by vectorizing them in latent space with natural language processing models, but there is a disadvantage in that words cannot be considered for contextual features. Therefore, in this study, to create a model that reduces the search scope by grasping the context characteristics of each patent, we propose vectorizing words with patent pre-trained PatentBERT and reducing the search scope of the patent using the Contrastive Loss function. To understand changes in correlation between Jaccard similarity and Euclidean distance when using contrastive loss, we train the model using USPTO data provided by the Harvard Database. To see if the correlation between Jaccard similarity and Euclidean distance changes with the use of contrastive loss, we learn the model using USPTO data provided by Harvard Database. Designate a target node to see if it can help reduce the scope of the patent search. It is then compared whether the selected set includes a novelty infringement risk patent. In addition to reducing the scope of patent preliminary investigation, this model can be used in various areas such as screening papers with similar contents and plagiarism tests.
URI
http://hanyang.dcollection.net/common/orgView/200000656133https://repository.hanyang.ac.kr/handle/20.500.11754/179805
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > APPLIED ARTIFICIAL INTELLIGENCE(인공지능융합학과) > Theses(Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE