437 0

오픈 소스를 활용한 딥러닝 기반의 화자 분리

Title
오픈 소스를 활용한 딥러닝 기반의 화자 분리
Other Titles
Speaker Diarization based on Deep Learning using Open Sources
Author
장원영
Alternative Author(s)
Wonyoung Chang
Advisor(s)
조인휘
Issue Date
2021. 8
Publisher
한양대학교
Degree
Master
Abstract
4차산업혁명 시대의 핵심인 인공지능 관련 기술은 지속적으로 공유가 되어야 한다고 생각한다. 다행히도 소프트웨어 분야는 오픈 소스 프로젝트 라는 장을 통해서 기술 공유가 잘 이루어 지고 있다. 저자가 관심을 두게 된 음성인식 분야도 많은 오픈소스들이 공유 되고 있다. 하지만 어떤 것이 신뢰성이 있고 성능이 우수한 것인지를 판단하기는 쉽지 않다. 해서 저자는 음성 분야에서도 최근 연구가 시작이 되고 있는 화자 분리를 오픈 소스를 활용하여 구현을 해 보았다. 음성인식과 화자 분리를 한 플랫폼에서 구현을 하려고 하였으나 몇몇 문제로 인하여 분리하여 구현을 하였다. 신뢰할 만한 오픈 소스를 선택하기 위하여 github.com 에 등록된 소스 만을 대상으로 하였으며, git stars라는 지표와 사용가능 언어등 여러가지 조건에 부합하는 소스를 대상으로 선정하였다. 구현 환경은 마이크로소프트의 비쥬얼 스튜디오 코드와 구글의 코랩으로 한정하였다. 오픈 소스를 활용한 음성인식 소프트웨어는 잡음이 없는 1인칭 시점의 발화에서는 80% 의 준수한 인식률을 보여 주었으나 다중 발화의 경우 10%대의 인식률을 보여 주었다. 두번째로 화자분리 소프트웨어는 파라미터 값이 정확성에 미치는 영향이 크다는 것을 인지하여 파라미터 값을 조절하며 정확성을 조사 하였으며 그 중에서 이터레이션이 정확성에 큰 영향을 주는 것으로 파악되었다. 그래서 이터레이션 값을 1에서부터 1000까지 증가를 시키면서 정확도를 측정한 결과, 50회부터 정확도가 급격히 증가하였으며, 75회 이상부터 1000회까지 98%의 정확도를 나타나는 결과를 보였다. 25개의 시퀀스를 보유한 화자분리를 원하는 경우에는 75에서 100회 정도의 이터레이션이 가장 효율적인 것으로 판단 된다.|I believe that artificial intelligence-related technologies, which are the core of the 4th industrial revolution era, should be continuously shared. Fortunately, in the software field, technology sharing is well done through the chapter called Open Source Project. In the field of speech recognition, which the author is interested in, many open sources are being shared. However, it is not easy to determine which is reliable and which is superior in performance. Therefore, I tried to implement speaker separation, which has recently begun research in the field of speech, using open sources. In order to select github.com, we selected a source that is registered on github.com and has various conditions, such as an index of git stars and available languages. The implementation environment was limited to Microsoft's Visual Studio Code and Google's Colab. Speech recognition and speaker diarization were attempted to be implemented on one platform, but due to some problems, they were implemented separately. Speech recognition software using open source showed a good recognition rate of 80% in first-person utterances without noise, but showed a recognition rate of 10% in case of multiple utterances. Second, the speaker diarization software recognized that the parameter value had a large effect on the accuracy, and adjusted the parameter value to investigate the accuracy, and it was found that iteration had a large influence on the accuracy. So, as a result of measuring the accuracy while increasing the iteration value from 1 to 1000, the accuracy increased rapidly from 50 times, and 98% accuracy was shown from 75 times or more to 1000 times. In case speaker diarization having 25 sequences is desired, 75 to 100 iterations are considered to be the most efficient.
URI
http://hanyang.dcollection.net/common/orgView/200000498400https://repository.hanyang.ac.kr/handle/20.500.11754/164230
Appears in Collections:
GRADUATE SCHOOL OF ENGINEERING[S](공학대학원) > ELECTRICAL ENGINEERING AND COMPUTER SCIENCE(전기ㆍ전자ㆍ컴퓨터공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE