경량 오디오 표현 학습을 위한 자체 증류 자기 지도 학습
- Title
- 경량 오디오 표현 학습을 위한 자체 증류 자기 지도 학습
- Other Titles
- Self–distilled self-supervised learning for lightweight audio representation
- Author
- 김소정
- Alternative Author(s)
- Kim So-Jeong
- Advisor(s)
- 장준혁
- Issue Date
- 2023. 2
- Publisher
- 한양대학교
- Degree
- Master
- Abstract
- 자기 지도 학습은 컴퓨터 비전 및 음성 분야에서 혁신적인 성과를 보인 뒤
오디오로 적용 범위가 확장 되었다. 그러나 자기 지도 학습에서 널리 사용되
는 대규모 인공지능 신경망은 실제 서비스를 고려한 오디오 표현 학습에 적합
하지 않다. 본 논문은 컴퓨터 비전 분야에서 제안된 자체 증류 학습 기반의
자기 지도 학습인 Distillation with No labels (DINO)를 최첨단 경량 음향 장
면 분류 모델에 적용하여 기존 최첨단 성능의 한계를 뛰어 넘는 것을 목표로
한다.
DINO 프레임워크는 동일한 구조의 학생, 교사 모델을 병렬적으로 배치해 두
모델의 지식을 증류하는 방식으로 학습을 진행한다. DINO는 오디오 표현을
추출하는 인코더와 데이터의 의미론적 정보를 유지하기 위해 학생, 교사 모델
의 출력 분포 차이를 줄이는 손실 함수를 정의하는 헤드로 구성된다. 평가 과
정에서 헤드를 제외한 인코더만 사용되기 때문에 인코더의 경량화에 중점을
두어 DCASE 2022 대회 중 경량 오디오 장면 분류 부문 참여를 위해 설계 되
어 2위를 달성한 BC-Res2Net을 오디오 표현을 위한 인코더로 선정 하였다.
Audioset을 사용하여 모델의 사전 학습을 진행한 뒤 다양한 오디오 분류와
관련된 다운스트림 작업에서 모델 성능 평가를 진행하였다. 실험 결과 제안한
프레임워크가 BC-Res2Net의 성능을 향상 시킬 뿐만 아니라 경량 네트워크
측면에서 다른 최신 자기지도학습 프레임워크보다 우수한 성능을 보임을 확인
하였다.
- URI
- http://hanyang.dcollection.net/common/orgView/200000652933https://repository.hanyang.ac.kr/handle/20.500.11754/179810
- Appears in Collections:
- GRADUATE SCHOOL[S](대학원) > ARTIFICIAL INTELLIGENCE(인공지능학과) > Theses(Master)
- Files in This Item:
There are no files associated with this item.
- Export
- RIS (EndNote)
- XLS (Excel)
- XML