4차산업혁명 시대의 핵심인 인공지능 관련 기술은 지속적으로 공유가 되어야 한다고 생각한다. 다행히도 소프트웨어 분야는 오픈 소스 프로젝트 라는 장을 통해서 기술 공유가 잘 이루어 지고 있다. 저자가 관심을 두게 된 음성인식 분야도 많은 오픈소스들이 공유 되고 있다. 하지만 어떤 것이 신뢰성이 있고 성능이 우수한 것인지를 판단하기는 쉽지 않다. 해서 저자는 음성 분야에서도 최근 연구가 시작이 되고 있는 화자 분리를 오픈 소스를 활용하여 구현을 해 보았다. 음성인식과 화자 분리를 한 플랫폼에서 구현을 하려고 하였으나 몇몇 문제로 인하여 분리하여 구현을 하였다. 신뢰할 만한 오픈 소스를 선택하기 위하여 github.com 에 등록된 소스 만을 대상으로 하였으며, git stars라는 지표와 사용가능 언어등 여러가지 조건에 부합하는 소스를 대상으로 선정하였다. 구현 환경은 마이크로소프트의 비쥬얼 스튜디오 코드와 구글의 코랩으로 한정하였다. 오픈 소스를 활용한 음성인식 소프트웨어는 잡음이 없는 1인칭 시점의 발화에서는 80% 의 준수한 인식률을 보여 주었으나 다중 발화의 경우 10%대의 인식률을 보여 주었다. 두번째로 화자분리 소프트웨어는 파라미터 값이 정확성에 미치는 영향이 크다는 것을 인지하여 파라미터 값을 조절하며 정확성을 조사 하였으며 그 중에서 이터레이션이 정확성에 큰 영향을 주는 것으로 파악되었다. 그래서 이터레이션 값을 1에서부터 1000까지 증가를 시키면서 정확도를 측정한 결과, 50회부터 정확도가 급격히 증가하였으며, 75회 이상부터 1000회까지 98%의 정확도를 나타나는 결과를 보였다. 25개의 시퀀스를 보유한 화자분리를 원하는 경우에는 75에서 100회 정도의 이터레이션이 가장 효율적인 것으로 판단 된다.|I believe that artificial intelligence-related technologies, which
are the core of the 4th industrial revolution era, should be
continuously shared. Fortunately, in the software field, technology
sharing is well done through the chapter called Open Source Project.
In the field of speech recognition, which the author is interested in,
many open sources are being shared. However, it is not easy to
determine which is reliable and which is superior in performance.
Therefore, I tried to implement speaker separation, which has recently
begun research in the field of speech, using open sources. In order to
select github.com, we selected a source that is registered on
github.com and has various conditions, such as an index of git stars
and available languages. The implementation environment was limited to
Microsoft's Visual Studio Code and Google's Colab.
Speech recognition and speaker diarization were attempted to be
implemented on one platform, but due to some problems, they were
implemented separately. Speech recognition software using open source
showed a good recognition rate of 80% in first-person utterances
without noise, but showed a recognition rate of 10% in case of
multiple utterances. Second, the speaker diarization software
recognized that the parameter value had a large effect on the accuracy,
and adjusted the parameter value to investigate the accuracy, and it
was found that iteration had a large influence on the accuracy. So, as
a result of measuring the accuracy while increasing the iteration
value from 1 to 1000, the accuracy increased rapidly from 50 times,
and 98% accuracy was shown from 75 times or more to 1000 times. In
case speaker diarization having 25 sequences is desired, 75 to 100
iterations are considered to be the most efficient.