274 0

Convolutional Neural Network 기반의 알고리즘 결합을 통한 감성 인식 시스템

Title
Convolutional Neural Network 기반의 알고리즘 결합을 통한 감성 인식 시스템
Other Titles
Emotion recognition system through algorithm combination based on Convolutional Neural Network
Author
오성찬
Alternative Author(s)
Oh, Sung Chan
Advisor(s)
조 인 휘
Issue Date
2022. 2
Publisher
한양대학교
Degree
Master
Abstract
The coronavirus has spread all over the world starting in the winter of 2019, and even now, in the winter of 2021, the spread of various mutated viruses continues, which has brought about many changes in our lives. Activities that used to be done face-to-face have shifted to non-face-to-face forms such as telecommuting, video conferencing, interviews, and non-face-to-face classes, and this trend will continue to become 'New Normal' even after 'With Corona' is implemented. As the form of meetings between people changes, some have raised the problem of lack of communication between non-face-to-face activities in an online environment. Human's expression is one of the most important means of communication in the form of face-to-face communication, and the importance of recognizing human emotions is increasing even in non-face-to-face communication these days. In this paper, we look at the technologies currently used for emotion recognition in non-face-to-face communication, and design and implement a system that detects a person's face in a video and recognizes emotions and produces results. For the face detection part, the YOLO v3 model was changed according to the system, and the part for recognizing human emotions was directly implemented with the Convolutional Neural Networks algorithm, which is mainly used for processing image or video data in deep learning, and then A model was created by learning through 36000 image data(fer2013), and a ResNet50 model was also trained through the same data. In addition, by learning CNN models of different algorithms through deep learning, the predictions of each single model are combined and finally classified into ensemble learning to determine the final prediction value. As a result of performance evaluation of CNN model and ResNet model developed through Deep Learning, the processor type was changed from CPU to GPU, and the CNN model showed about 13.8 times faster learning speed than CPU use. In addition, Through the experiment of changing the batch size, one of the hyperparameters, from 32 to 128, it was found that there was a correlation between the batch size and the processor, which increased GPU utilization by about 20%, improved learning time to 1/2 and improved learning speed. Finally, by changing from predicting results with a single model to introducing an ensemble technique that combines the predicted values of five models to derive final results, the accuracy of emotion recognition could be improved from 66% to 70% for CNN models and 71% to 74% for ResNet models. | 2019년 겨울을 시작으로 전 세계적으로 코로나 바이러스가 확산되었고 2021년 겨울인 현재까지도 여러 변이 바이러스가 생기면서 확산세는 계속되고 있으며, 이는 우리 삶에 많은 변화를 가져왔다. 대면으로 이루어지던 활동들이 재택근무, 화상 회의와 면접, 비대면 수업 등의 비대면 형태로 전환되었으며 이러한 변화의 추세는 위드 코로나가 시행되고 나서도 계속 뉴노멀로서 자리 잡을 것이다. 사람들의 만남의 형태가 변화하며 일각에서는 온라인 환경에서의 비대면 활동간 소통이 부족하다는 문제가 제기되고 있다. 사람의 표정은 대면 소통의 형태에서 가장 중요한 소통의 수단 중 하나이며, 비대면으로 소통하는 형태가 폭발적으로 증가하는 요즘 비대면 소통에서도 사람의 감정을 인지하는 것의 중요성이 점점 증가하고 있다. 본 연구에서는 비대면 소통에서의 감성 인식을 위하여 현재 사용되고 있는 기술들을 살펴보고, 동영상에서 사람의 얼굴을 검출하고 감정을 인식하여 결과를 내는 시스템을 설계하고 구현하였다. 얼굴 검출 부분은 공개되어 있는 YOLO v3 모델을 해당 시스템에 맞춰 변경하여 사용하였으며 사람의 감성을 인식하는 부분은 Deep Learning에서 주로 이미지나 영상 데이터를 처리할 때 쓰이는 Convolutional Neural Networks 알고리즘을 직접 구현하고 fer2013 데이터인 약 36000개의 이미지 데이터를 통해서 학습하여 모델을 만들었으며, 동일한 데이터를 통해 ResNet50 모델 또한 학습하였다. 또한 Deep Learning을 통해 각기 다른 알고리즘의 CNN 모델들을 학습시켜 각각의 단일 구성 모델들의 예측을 결합하여 최종 예측 값을 결정하는 앙상블 학습으로 최종 분류 하도록 하였다. Deep Learning을 통해 개발된 Convolutional Neural Networks 모델과 ResNet 모델에 대하여 성능 평가를 진행한 결과, 프로세서 타입을 CPU에서 GPU로 변경하며 CNN 모델의 경우 학습 속도 부분에서 CPU 사용 시 보다 약 13.8배 빠른 학습 속도를 보였으며, 하이퍼파라미터 중 하나인 batch size를 32에서 128로 변경하는 실험을 통해서 batch size와 프로세서간의 상관관계가 있다는 것을 알게 되었고, 이를 통해 GPU 활용률을 약 20% 증가시켰으며 학습 시간을 1/2로 개선하며 학습 속도를 개선 할 수 있었다. 또한 single 모델로만 결과를 예측하는 방식에서 모델 5개의 예측 값을 결합하여 최종 결과를 도출하는 ensemble 기법을 도입하면서 감성 인식 정확도에 있어서 CNN 모델은 66%에서 70%로, ResNet 모델은 71%에서 74%로 정확도가 개선됨을 보였다.
URI
http://hanyang.dcollection.net/common/orgView/200000595718https://repository.hanyang.ac.kr/handle/20.500.11754/168373
Appears in Collections:
GRADUATE SCHOOL OF ENGINEERING[S](공학대학원) > ELECTRICAL ENGINEERING AND COMPUTER SCIENCE(전기ㆍ전자ㆍ컴퓨터공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE