983 0

3D 로그 멜-스펙트로그램에 dilated CNN과 attention based sliding LSTM을 적용한 음성 감정 인식

Title
3D 로그 멜-스펙트로그램에 dilated CNN과 attention based sliding LSTM을 적용한 음성 감정 인식
Other Titles
Speech emotion recognition using dilated CNN and attention based sliding LSTM with 3D log mel-spectrogram
Author
신동현
Advisor(s)
권영헌
Issue Date
2020-08
Publisher
한양대학교
Degree
Master
Abstract
최근 사람이 말하는 음성 언어를 기계장치를 통해 문자 데이터로 전환하는 STT(Speech To Text)기술에 있어서 많은 진보가 있어 왔다. 이러한 진보는 다양한 머신 러닝을 이용한 AI 기술이 그 오류를 현저하게 줄이고 있음에 기인한다. 한편 음성에는 언어적인 정보뿐만 아니라 비언어적인 정보 또한 담겨있다. 음성에서 정확한 의도를 파악하기 위해서는 음성에 담긴 언어적인 정보뿐만 아니라 비언어적인 정보인 감정을 인식하는 것이 매우 중요하다. 음성에서의 감정인식(SER(Speech Emotion Recognition))의 중요성으로 인해 SER에 상당한 연구가 투자되었다. 그럼에도 불구하고 음성언어에 포함된 감정을 인지하는 기술은 아직 많은 발전이 필요하다. 본 논문에서는 이 문제에 대한 연구를 보고한다. 즉 감정표현을 보다 정확하게 인지하는 방법에 대한 논의를 제공한다. 본 논문에서는 로그 멜-스펙트로그램(Log Mel-Spectrogram) 과 로그 멜-스펙트로그램의 차분과 차차분을 조합한 3 차원의 특징을 이용한 ADSRNN(dilated CNN with residual block and sliding BiLSTM based on the attention mechanism)모델을 제안한다. 제안한 모델은 전처리 과정에서 음성을 3차원의 이미지로 변환한 후 CNN(Convolution Neural Network)층을 통해 SER에 알맞은 특징맵을 출력한 후 출력한 특징맵(Feature map)을 일정 구간의 frame 단위를 인식하는 sliding LSTM(Long Short Term Memory)을 사용한다. 이를 통하여 특징을 추출하고 Attention(Attention)을 적용하여 감정을 예측한다. 실험 결과 제안된 모델이 대조군 모델과 비교하여 8~12%의 성능향성을 달성하였다. 이를 통해 제안된 방식인 dilated CNN, sliding LSTM 그리고 Attention을 사용하는 것이 SER의 성능 향상에 도움이 되는 것 을 확인하였다.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/153149http://hanyang.dcollection.net/common/orgView/200000438012
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > APPLIED PHYSICS(응용물리학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE