229 0

경량 오디오 표현 학습을 위한 자체 증류 자기 지도 학습

Title
경량 오디오 표현 학습을 위한 자체 증류 자기 지도 학습
Other Titles
Self–distilled self-supervised learning for lightweight audio representation
Author
김소정
Alternative Author(s)
Kim So-Jeong
Advisor(s)
장준혁
Issue Date
2023. 2
Publisher
한양대학교
Degree
Master
Abstract
자기 지도 학습은 컴퓨터 비전 및 음성 분야에서 혁신적인 성과를 보인 뒤 오디오로 적용 범위가 확장 되었다. 그러나 자기 지도 학습에서 널리 사용되 는 대규모 인공지능 신경망은 실제 서비스를 고려한 오디오 표현 학습에 적합 하지 않다. 본 논문은 컴퓨터 비전 분야에서 제안된 자체 증류 학습 기반의 자기 지도 학습인 Distillation with No labels (DINO)를 최첨단 경량 음향 장 면 분류 모델에 적용하여 기존 최첨단 성능의 한계를 뛰어 넘는 것을 목표로 한다. DINO 프레임워크는 동일한 구조의 학생, 교사 모델을 병렬적으로 배치해 두 모델의 지식을 증류하는 방식으로 학습을 진행한다. DINO는 오디오 표현을 추출하는 인코더와 데이터의 의미론적 정보를 유지하기 위해 학생, 교사 모델 의 출력 분포 차이를 줄이는 손실 함수를 정의하는 헤드로 구성된다. 평가 과 정에서 헤드를 제외한 인코더만 사용되기 때문에 인코더의 경량화에 중점을 두어 DCASE 2022 대회 중 경량 오디오 장면 분류 부문 참여를 위해 설계 되 어 2위를 달성한 BC-Res2Net을 오디오 표현을 위한 인코더로 선정 하였다. Audioset을 사용하여 모델의 사전 학습을 진행한 뒤 다양한 오디오 분류와 관련된 다운스트림 작업에서 모델 성능 평가를 진행하였다. 실험 결과 제안한 프레임워크가 BC-Res2Net의 성능을 향상 시킬 뿐만 아니라 경량 네트워크 측면에서 다른 최신 자기지도학습 프레임워크보다 우수한 성능을 보임을 확인 하였다.
URI
http://hanyang.dcollection.net/common/orgView/200000652933https://repository.hanyang.ac.kr/handle/20.500.11754/179810
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > ARTIFICIAL INTELLIGENCE(인공지능학과) > Theses(Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE