266 0

Integrated Char-Word Embedding on Chinese NER using Transformer

Title
Integrated Char-Word Embedding on Chinese NER using Transformer
Other Titles
트랜스포머를 이용한 중국어 NER 관련 문자와 단어 통합 임배딩
Author
김춘광
Alternative Author(s)
Jin Chunguang
Advisor(s)
조인휘
Issue Date
2022. 2
Publisher
한양대학교
Degree
Master
Abstract
Named Entity Recognition (NER) is one of the classic downstream tasks of natural language processing in deep learning. Although it has achieved good results in practical engineering, but there are many difficulties in Chinese NER tasks. because the words in Chinese sentences are continuous without spaces, unlike words in English, there are many spaces between the words, as a result, in different dataset, the words boundary are also different, and it’s difficult to determine. Therefore, Chinese NER has always been based on character representation. Recently, many studies have reconsidered how to integrate the effective words information into Chinese NER model char-based. However, the traditional deep learning model has complex structure and running speed is very slow. Although the state-of-the-art pre-training model in deep learning has been achieved new benchmark results, but the amount of parameters is too large, and it also needs to add appropriate position embedding, which is difficult to implement in industry. This paper uses the latest and parallelizable model, and integrates the character vector with the word vector, and let the model not only learns the vocabulary information, but also finds the information of the vocabulary boundary, such as to better predict the output. And combined with the recent model BERT. The method is simple and easy to implement, improves the inference speed compared with the traditional model, and improves the effect of the model on the NER task on two experimental data sets. |요지 자연어 처리는 컴퓨터 과학 분야와 인공지능 분야에서 중요한 방향이다. 그것은 인간과 컴퓨터 간에 자연어로 효과적으로 교신할 수 있는 여러 가지 이론과 방법을 연구합니다. 개체명 인식은 자연어 처리에서 중요한 영역으로 정보 추출, 문답 시스템, 구법 분석, 기계 번역 등 응용 분야의 중요한 기초 도구로 자연어 처리 기술이 실용화되는 과정에서 중요한 위치를 차지합니다. 일반적으로 실체 인식은 처리 대상의 3 가지 종류(실체류, 시간류, 디지털류), 7 가지 종류(인명, 기구명, 지명, 시간, 날짜, 통화, 퍼센트)의 실체를 식별하는 작업입니다. 중국어 개체명 인식은 항상 인기 있는 연구 방향입니다. 중국어 텍스트에는 영어 텍스트의 빈칸과 같은 현식표시어의 경계 표시자가 없습니다. 그래서 중국어 NER 는 문자 표시에 기반을 두고 있습니다. 최근, 여러분이 연구하는 방향은 모형에서 문제를 해결하는 것입니다, 이로 인해 모형 구조가 복잡해져서 공업계에서 실현하기 어렵고, 또 운행 속도가 매우 느립니다. 그래서 본문은 어떻게 하면 모형 내부 구조를 바꾸지 않으면서 동시에 단어의 정보를 모형에 녹여낼 수 있는지 중점적으로 연구하고 있습니다.또한 이 방법은 최신 모델에서도 여전히 통용되고 있어, 실제 산업계의 실현에 도움이 됩니다. 인식 개선 효과에 큰 의미가 있습니다.
URI
http://hanyang.dcollection.net/common/orgView/200000590450https://repository.hanyang.ac.kr/handle/20.500.11754/167495
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE(컴퓨터·소프트웨어학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE