본 논문에서는 텍스트 기반 유사도 계산 방안을 기반으로 논문들 간의 유사도를 정확하게 계산하는 방안을 논의한다. 논문은 제목, 요약, 그리고 본문으로 구성되어 있으며, 텍스트 기반 유사도 계산에서 논문의 어느 부분의 단어들을 이용하여 유사도를 계산하는 가에 따라 유사도 계산 결과가 달라진다. 따라서 본 논문에서는 논문의 제목, 요약, 그리고 본문의 단어들 중 어떤 부분의 단어들을 이용하여 유사도를 계산하는 것이 정확한지를 실험을 통해서 확인한다. 또한, 두 부분의 단어들을 동시에 이용하기 위해서 실험을 통하여 각 부분에 적절한 가중치를 부여한다. 논문들 간의 유사도를 계산하기 위해서는 논문의 텍스트 정보가 필요하다. 그러나 논문 데이터베이스에는 저작권 문제와 크롤링과 파싱의 어려움 때문에 논문의 텍스트 정보가 손실되어 있다. 따라서 논문의 텍스트 정보 손실은 텍스트 기반 유사도 계산의 정확도를 감소시키는 문제가 일으킨다. 본 논문에서는 논문의 텍스트 정보 손실의 문제점을 보완하기 위해 유사도를 계산하고자하는 논문이 참조하거나 해당 논문을 참조하는 논문의 텍스트 정보를 이용하는 키워드 확장 방안을 제안한다. 실제 논문 데이터베이스를 대상으로 키워드 확장 방안과 기존 텍스트 기반 유사도 계산 방안으로 각각 유사도를 계산하고 해당 유사도의 정확도를 측정함으로써 키워드 확장 방안의 우수성을 검증한다.