463 0

앙상블 모델을 활용한 화자인식 정확도 향상

Title
앙상블 모델을 활용한 화자인식 정확도 향상
Other Titles
Improvement of Speaker Recognition Accuracy Using Ensemble Model
Author
장중부
Alternative Author(s)
Jang, Jung Bu
Advisor(s)
조인휘
Issue Date
2022. 2
Publisher
한양대학교
Degree
Master
Abstract
본 논문에서는 CNN 모델을 개선하여 음성 화자 인식의 정확도를 향상시키는 방법을 제안한다. 음성 기반의 검색 시스템은 현재 단순한 형태의 명령어 입력뿐만 아니라, 지문 또는 안면 인식 등과 같은 생체인식의 새로운 형태로도 음성인식의 가능성이 제기되고 있는 상황이다. 그러나 현재는 인식률의 제한으로 인해 특정 형태의 명령어를 통해서만 처리가 가능하고, 생체인식의 측면에서도 보안성을 높여 나가야 하는 과제를 안고 있다. 이러한 과제를 개선하기 위해 기존에 이미지 분류 작업에 사용되었던 CNN 모델들을 활용하여 음성인식에도 접목하고자 하는 연구들이 이어지고 있다. 이미지 분류와 마찬가지로, CNN 모델이 갖고 있는 대표적인 특징인 공간 불변성과 부분 특징 추출 개념을 활용하여 음성 내에서의 화자 인식을 위한 특징 추출에도 활용하고 있다. 본 논문에서는 이러한 CNN 모델 가운데 화자 인식에 가장 많이 사용되고 있는 ResNet 모델과, ResNet 모델의 개선된 버전인 DenseNet 모델의 성능을 우선적으로 비교한다. 그리고 두 가지 모델을 Ensemble 한 신규 모델을 생성하여 더 나은 성능을 제시하고자 한다. 이를 위해 랜덤 배치를 통해 학습 데이터를 추출하고, 이를 MFCC 로 변환한 데이터를 사용하여 ResNet 모델과 DenseNet 모델에서 학습을 진행한다. 또한 두 가지 모델의 예측 값의 평균에 대해 계산하는 앙상블 모델에 대해서도 학습을 진행하며, 학습 과정에서는 Triplet loss 함수를 통해 오차를 줄여나가는 모델을 구현하였다. 실제 성능 검증 결과 ResNet 모델보다는 DenseNet 모델에서 동일오류율(EER) 이 개선되었으며, 앙상블 모델을 통해 두 가지 모델보다 성능이 개선된다는 점을 검증할 수 있었다. |In this paper, a method of improving the accuracy of speech speaker recognition by improving the CNN model is proposed. Voice-based search systems are currently raising the possibility of voice recognition not only in simple forms of instruction input, but also in new forms of biometric recognition such as fingerprint or facial recognition. However, due to the limitation of the recognition rate, it can only be processed through certain types of commands, and it has the task of increasing security in terms of biometric recognition. In order to improve this task, studies are continuing to be applied to voice recognition using CNN models that have been previously used in image classification work. Like image classification, the concept of spatial invariance and partial feature extraction, which are representative features of the CNN model, is used to extract features for speaker recognition within speech. In this paper, among these CNN models, the performance of the ResNet model, which is the most commonly used for speaker recognition, and the DenseNet model, an improved version of the ResNet model, are preferentially compared. And we want to present better performance by creating a new model with two models Ensemble. To this end, learning data is extracted through random placement, and learning is performed in the ResNet model and the DenseNet model using the data converted into MFCC. In addition, learning is conducted on the ensemble model that calculates the average of the predicted values of the two models, and in the learning process, a model that reduces errors through the Triplet loss function was implemented. As a result of actual performance verification, it was verified that the same error rate (EER) was improved in the DenseNet model compared to the ResNet model, and that the performance was improved in the ensemble model compared to the two models.
URI
http://hanyang.dcollection.net/common/orgView/200000595704https://repository.hanyang.ac.kr/handle/20.500.11754/168387
Appears in Collections:
GRADUATE SCHOOL OF ENGINEERING[S](공학대학원) > ELECTRICAL ENGINEERING AND COMPUTER SCIENCE(전기ㆍ전자ㆍ컴퓨터공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE