프로테오믹스는 단백질의 기능을 분석하고, 성질을 파악하는 학문으로 단백질 동정을 사용한다. 단백질 동정은 단백질을 구성하는 아미노산 서열을 확인하는 과정으로 단백질 서열 데이터베이스를 이용한다. 단백질 동정에서 대규모 단백질 서열 데이터베이스를 사용할 경우, 수행시간이 매우 많이 걸린다. 이 문제를 해결하기 위하여 태그를 이용하여 데이터베이스를 검색한다. 기존의 데이터베이스 검색방법은 아미노산 3개로 구성된 태그를 사용하는 InsPecT와 갭을 포함하는 태그를 사용하는 MS-GappedDictionary가 있다. MS-GappedDictionary는 길이가 3인 태그를 이용하며 크기가 500Da이하인 갭을 최대 하나만 허용한다. 본 논문에서는 MS-GappedDictionary을 개선하여 데이터베이스를 검색하는 방법을 제안한다. 제안하는 방법에서는 크기가 최대 814Da인 갭을 허용하고 두 개 이상의 갭과 태그의 길이가 3이상인 태그도 사용하도록 한다.