1323 0

적은 양의 음성 데이터 셋을 활용 시 감정인식 향상 방법

Title
적은 양의 음성 데이터 셋을 활용 시 감정인식 향상 방법
Other Titles
Improvement Methods of Speech Emotion Recognition with Small Amount of Dataset
Author
김병건
Alternative Author(s)
kim byung gun
Advisor(s)
권영헌
Issue Date
2021. 2
Publisher
한양대학교
Degree
Master
Abstract
딥러닝의 비약적 발전은 방대한 데이터의 양과 컴퓨팅 연산의 성능 개선을 통해 얻어지고 있다. 그러나 음성감정인식(Speech emotion recognition, SER)같이 상대적으로 적은 양의 데이터만이 허용될 때 좋은 결과를 얻지 못하는 문제점이 등장한다. 이 문제를 해결하기 위하여 본 연구에서는 적은 양의 데이터를 가진 경우인 음성감정인식(Speech emotion recognition, SER)에 있어서 성능 향상을 위한 방법을 연구하였다. 음성감정인식에 사용되는 데이터 셋(ex. IEMOCAP)은 딥러닝의 사용되는 주요 데이터 셋(ex. MNIST, CIFAR10)보다 상대적으로 적은 양을 지닌다. 본 연구에서는 적은양의 데이터로 인한 문제를 해결하고자 학습 방법을 통한 감정인식의 향상 방법에 대한 연구를 진행하였다. 제안한 방법을 통한 향상 정도의 비교를 위해 ‘3-D Convolutional Recurrent Neural Networks With Attention Model for Speech Emotion Recognition’(ACRNN) 논문에서 제시된 모델과 성능을 비교하였다. 제안하는 음성감정인식 정확도 향상을 위하여 다음과 같은 4가지 방법을 시행하였다:1) CNN, RNN, DNN 층 마다 다른 dropout 비율 적용을 통한 학습 2) 커리큘럼을 활용한 학습(일부 데이터셋 만을 활용 즉 데이터 자체의 정보를 일부 없앤 데이터 활용) 3) 데이터 부족으로 인한 문제를 해결하고자 GAN을 통해 데이터 증강을 통한 학습, 4)Log-mel 과 MFCC를 같이 활용한 학습. 본 실험을 수행한 결과, 기존 ACRNN의 UAR(Unweighted Average Recall)으로부터 얻은 값 (log mel:64.17%±4.54, MFCC : 63.41%±7.85)과 비교할 때 Log mel 특징의 경우 최고 65.76%±6.61, MFCC 특징의 경우 최고 64.96%±4.92의 정확도를 얻음으로 제안 방법이 성능 향상에 도움이 됨을 알 수 있었다.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/159208http://hanyang.dcollection.net/common/orgView/200000486256
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > APPLIED PHYSICS(응용물리학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE