979 0

청각장애인을 위한 딥러닝 기반 환경음 분류 및 소음 제거 방법

Title
청각장애인을 위한 딥러닝 기반 환경음 분류 및 소음 제거 방법
Other Titles
Deep learning-based environmental sound classification and noise reduction methods for the Hard-of-hearing
Author
최승만
Advisor(s)
조 인 휘
Issue Date
2022. 2
Publisher
한양대학교
Degree
Master
Abstract
Since 2015, hard-of-hearing population has increased rapidly by 40% from 2015 to 2020. The most common communication methods for them are spoken language, handwriting, gestures and sign language. Hearing loss can be divided into deaf people who use sign language, and hard-of-hearing people who use spoken language. Unlike the deaf people who use sign language, most hard-of-hearing people with spoken language has residual hearing ability. They use various hearing aids or artificial cochlear implants (which send electrical stimulation to the auditory nerves) to amplify the sound, and communicate with non-disabled people through listening training and pronunciation training. However, existing communication methods and tools are difficult to use in noisy environments, and it is not enough for hard-of-hearings to recognize environmental situations around them. Recently various studies are being conducted to solve the discomfort of hearing loss through emerging deep learning technologies. Hearing aids and artificial cochlear implants have built-in algorithm for noise cancellation. With the development of Speech-to-Text technology, voice recognition researches are actively being conducted. This study suggests deep learning methods for hard of hearing people to recognize environmental situations through noise classification, and recognize clearer voices by reducing environmental noise during communication. The environmental sound classification model is built on Long Short Term Memory (LSTM). This model consists of environmental noise classifier and noise reduction. The classifier listens to the sound and recognizes the environmental situation, and the noise reduction can be applied when this environmental sounds interrupt the conversation. To create an environmental sound classifier, 10 urban environmental noises from UrbanSound8K were used as training data. UrbanSound8K data provides 8732 labeled audios less than 4 seconds of 10 urban environmental noise data such as car horns, guns, dog barking and sirens. These are selected from real recordings uploaded to freesound.org. UrbanSound8K data have different values for each audio because the sampling rate and quantization level are same as the original. To use as training data, the audio stereo type was changed to mono, and MFCC (Mel-Frequency Cepstral Coefficient) and Mel-spectrogram were extracted to be used as features. To create the environmental noise reduction model, we used UrbanSound8K urban noise data and Zeroth-Korean Korean voice data. Zeroth-korean Korean audio data is a total of 51.6 hours of Korean audio, 22,263 audios of 3000 sentences which are spoken by 105 speakers. To use them as RNNoise training data, each sound source was changed to mono, and went through a sampling transformation. To remove the environmental noise, 10 noise reduction models were designed for each environmental sound. If the noise occurs, the classifier judges which environmental noise it is and passes to noise reduction model to effectively remove noise. As a performance evaluation method of the environmental context recognition model, it was tested with 3,000 audio pieces of city noise data. The maximum recognition rate for each class was 98%, and the average recognition rate for the entire class was 92.57%. The noise reduction model was evaluated to compare the audio recognition rate with Speech-to-text engine. We merged the voices with the environmental noise and compared the audios before and after noise reduction. The proposed noise removal method showed a high result with a maximum recognition rate of 96.96% for each class after noise removal.| 2015년 이후 청각장애인의 수는 급격히 증가하여 2015년부터 2020년까지 그 수가 40%나 증가하였고 고령화로 인해 청각장애인의 수는 점점 더 급격히 증가하고 있다. 청각 장애인의 소통 방법으로는 수어, 구어, 필담, 몸짓 등을 사용하고 있다. 청각 장애인은 음성 언어인 구어를 사용하는 난청인과 시각 언어인 수어를 사용하는 농인으로 나눌 수 있다. 수어를 사용하는 농인은 수어를 통해서 의사소통을 하지만 구어를 사용하는 난청인들은 어느 정도 잔존 청력이 남아 있어서 소리를 증폭시켜 주는 보청기와 청신경에 전기 자극을 주어 뇌가 소리를 들을 수 있게 도와주는 인공와우를 착용하고 소리 훈련과 발음 훈련 등을 통해 음성으로 비장애인과의 의사소통을 한다. 하지만 기존의 의사소통 방법과 의사소통 도구로는 청각장애인이 환경 상황 인지 및 위험 신호를 알기 어렵고 환경 소음이 발생하는 상황에서는 소음 발생으로 인해 의사소통 도구의 활용이 어렵다. 최근 들어서 기술이 발전하면서 딥러닝을 통해 청각 장애의 불편을 해소하려는 다양한 연구가 진행되고 있다. 보청기와 인공와우는 증폭된 잡음 신호를 제거하는 알고리즘이 적용되고 있고 음성인식 분야의 발전으로 음성인식기를 통한 문자 통역 분야의 연구도 활발히 진행중이다. 본 연구는 딥러닝을 활용한 환경 소음 분류 기법를 통해 청각장애인이 환경 상황을 인지하는 방법과 의사소통 중 환경 소음이 발생하는 상황에서 환경 소음의 노이즈를 줄여 더 선명한 목소리를 인지할 수 있는 방법에 대해서 제안한다. 환경 상황을 인지하기 위해 장단기 메모리 신경망(Long Short Term Memory, LSTM)을 이용하여 환경음 분류 모델을 만들었고 환경음을 학습한 모델이 소리 신호를 인식하여 환경 상황 분류를 통해 어떤 소리가 발생하고 있는지 인식하는 과정과 RNNoise 신경망에 환경 소음과 한국어 목소리를 학습하여 환경 노이즈 제거 모델을 만들고 해당 환경 소음이 발생하는 상황에서 사람과 의사소통을 할 경우 사람의 목소리를 제외하고 환경 소음의 노이즈를 줄이는 방법으로 구성되어 있다. 환경음 분류 모델을 만들기 위해 학습데이터로 UrbanSound8K의 10가지 도시 환경 소음을 사용하였다. UrbanSound8K 데이터는 freesound.org에 업로드된 실제 녹음 파일에서 선별한 자동차 경적 소리, 총 소리, 개 짖는 소리, 사이렌 소리 등 10가지 도시 환경 소음 데이터를 8732개의 레이블이 지정된 4초 미만의 오디오를 제공한다. UrbanSound8K 데이터는 샘플링률과 양자화 레벨은 원본과 동일하기 때문에 오디오 별로 다양한 값을 갖는다. 학습 데이터로 사용하기 위해 오디오의 스테레오 타입을 모노로 변경하고 MFCC (Mel-Frequency Cepstral Coefficient)와 멜-스펙트로그램(Mel-spectrogram)을 추출하여 feature로 사용하였다. 환경 노이즈 제거 모델을 만들기 위해 학습데이터로 환경음 분류 모델에서 사용한 UrbanSound8K 도시 소음 데이터와 Zeroth-korean 한국어 음성 데이터를 사용했다. Zeroth-korean 한국어 음성 데이터는 총 51.6시간의 한국어 음성 오디오로 105명의 화자가 총 3000개의 문장을 발화한 22,263개의 오디오를 제공한다. RNNoise 학습데이터로 사용하기 위해 각 음원들을 모노로 변경하고 샘플링 변환 후 학습하였다. 환경 소음을 제거 하는 방법으로 각각의 환경음 별로 10개의 소음 제거 모델을 생성하였고 환경 소음이 발생할 경우 환경 소음 인식 모델을 통해 어떤 환경 소음이 발생하는지 인식하고 해당 환경 소음을 제거하는 모델에 전달하여 환경 소음을 효율적으로 제거할 수 있도록 구성하였다. 환경 상황 인지 모델의 성능 평가 방법으로 도시 소음 데이터 3000개의 오디오를 추출하여 인식률을 확인하였고 클래스별 최대 인식률은 98%, 전체 클래스의 평균 인식률은 92.57%로 나타났다. 소음 제거 모델은 환경 소음에 직접 발화한 목소리를 병합하여 소음 제거 전과 후의 단어오류율을 클라우드 음성 인식 엔진을 통해 비교하였다. 제안한 소음 제거 방법은 노이즈 제거 이후 클래스별 최대 인식률이 96.96%로 높은 결과를 나타냈다.
URI
http://hanyang.dcollection.net/common/orgView/200000595716https://repository.hanyang.ac.kr/handle/20.500.11754/168392
Appears in Collections:
GRADUATE SCHOOL OF ENGINEERING[S](공학대학원) > ELECTRICAL ENGINEERING AND COMPUTER SCIENCE(전기ㆍ전자ㆍ컴퓨터공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE