87 0

향상된 음성인식 일반화를 위한 적대적 학습 기법

Title
향상된 음성인식 일반화를 위한 적대적 학습 기법
Other Titles
General-purpose adversarial training for enhanced automatic speech recognition generalization
Author
김도희
Alternative Author(s)
Dohee Kim
Advisor(s)
장준혁
Issue Date
2024. 2
Publisher
한양대학교 대학원
Degree
Master
Abstract
With the development of deep learning, the performance of automatic speech recognition (ASR) has improved, leading to various research on data augmentation techniques. However, the techniques for augmenting data synthetically have a limited performance improvement relative to the training time. Therefore, this thesis presents the General-purpose Adversarial Training (GPAT), a general-purpose adversarial training method to enhance the performance of ASR models. GPAT proposes the following: (1) Plausible Adversarial Examples Converter (PAC); (2) Distribution Matching Regularization term (DM reg.). Unlike previous studies that utilize adversarial examples as a data augmentation technique by directly calculating gradients with respect to inputs, PAC introduces nonlinearity while eliminating additional forward passes, achieving performance improvement. Moreover, unlike previous research that utilizes a fixed size to generate adversarial examples, GPAT can generate similar yet varied examples through DM reg. By introducing nonlinearity and using variable sizes to create adversarial examples, GPAT has improved performance on various models in the LibriSpeech dataset. In particular, when GPAT was applied to the conformer model, it achieved an average improvement of 5.3%. In experiments with wav2vec 2.0, it achieved a word error rate (WER) of 2.0%/4.4% on the LibriSpeech test set without a language model.|딥러닝의 발전으로 음성인식 성능이 큰 향상을 이룸에 따라 다양한 데이터 증강 기법들이 연구되어 왔다. 하지만 모의로 데이터를 증강하는 기법들은 학습 시간 대비 성능 향상의 폭이 적다. 따라서 본 논문은 음성 인식 모델의 성능을 향상시키는 일반 목적의 적대적 훈련 방법인 General-purpose Adversarial Training (GPAT)을 제시한다. GPAT에서는 다음을 제안한다: (1) Plausible adversarial examples converter (PAC); (2) Distribution matching regularization term (DM reg.). 적대적 예제를 데이터 증강 기법으로 사용한 이전 연구들이 입력에 대해 그래디언트를 직접 계산하는 것과 달리 PAC는 추가적인 포워드 패스를 제거하면서 비선형성을 도입하여 성능 향상을 달성한다. 또한, 이전 연구들이 고정된 크기를 사용하여 적대적 예제를 생성하는 것과 달리 GPAT는 DM reg.를 통해 유사하면서도 다양한 예제를 생성할 수 있다. 비선형성 도입과 가변적인 크기를 사용하여 적대적 예제를 생성하는 GPAT는 다양한 모델의 LibriSpeech 데이터셋에서의 성능을 향상시켰다. 특히, GPAT를 컨포머 (conformer) 모델에 적용했을 때 평균 5.3%의 상대적 개선을 달성했다. wav2vec 2.0 실험에 대해서는 언어 모델 없이 LibriSpeech 테스트셋에서 2.0%/4.4%의 단어 오류율 (word error rate, wer)을 달성 했다.
URI
http://hanyang.dcollection.net/common/orgView/200000722022https://repository.hanyang.ac.kr/handle/20.500.11754/189292
Appears in Collections:
ETC[S] > ETC
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE