Repository at Hanyang University: 경량 오디오 표현 학습을 위한 자체 증류 자기 지도 학습

Browse

My Repository

Repository at Hanyang UniversityGRADUATE SCHOOL[S](대학원)ARTIFICIAL INTELLIGENCE(인공지능학과)Theses(Master)

229 0

경량 오디오 표현 학습을 위한 자체 증류 자기 지도 학습

Title: 경량 오디오 표현 학습을 위한 자체 증류 자기 지도 학습

Other Titles: Self–distilled self-supervised learning for lightweight audio representation

Author: 김소정

Alternative Author(s): Kim So-Jeong

Advisor(s): 장준혁

Issue Date: 2023. 2

Publisher: 한양대학교

Degree: Master

Abstract: 자기 지도 학습은 컴퓨터 비전 및 음성 분야에서 혁신적인 성과를 보인 뒤 오디오로 적용 범위가 확장 되었다. 그러나 자기 지도 학습에서 널리 사용되 는 대규모 인공지능 신경망은 실제 서비스를 고려한 오디오 표현 학습에 적합 하지 않다. 본 논문은 컴퓨터 비전 분야에서 제안된 자체 증류 학습 기반의 자기 지도 학습인 Distillation with No labels (DINO)를 최첨단 경량 음향 장 면 분류 모델에 적용하여 기존 최첨단 성능의 한계를 뛰어 넘는 것을 목표로 한다. DINO 프레임워크는 동일한 구조의 학생, 교사 모델을 병렬적으로 배치해 두 모델의 지식을 증류하는 방식으로 학습을 진행한다. DINO는 오디오 표현을 추출하는 인코더와 데이터의 의미론적 정보를 유지하기 위해 학생, 교사 모델 의 출력 분포 차이를 줄이는 손실 함수를 정의하는 헤드로 구성된다. 평가 과 정에서 헤드를 제외한 인코더만 사용되기 때문에 인코더의 경량화에 중점을 두어 DCASE 2022 대회 중 경량 오디오 장면 분류 부문 참여를 위해 설계 되 어 2위를 달성한 BC-Res2Net을 오디오 표현을 위한 인코더로 선정 하였다. Audioset을 사용하여 모델의 사전 학습을 진행한 뒤 다양한 오디오 분류와 관련된 다운스트림 작업에서 모델 성능 평가를 진행하였다. 실험 결과 제안한 프레임워크가 BC-Res2Net의 성능을 향상 시킬 뿐만 아니라 경량 네트워크 측면에서 다른 최신 자기지도학습 프레임워크보다 우수한 성능을 보임을 확인 하였다.

URI: http://hanyang.dcollection.net/common/orgView/200000652933 https://repository.hanyang.ac.kr/handle/20.500.11754/179810

Appears in Collections:: GRADUATE SCHOOL[S](대학원) > ARTIFICIAL INTELLIGENCE(인공지능학과) > Theses(Master)

Files in This Item:

Export: RIS (EndNote); XLS (Excel); XML

Show full item record

한양대학교 리포지터리는 국립중앙도서관 OAK 보급사업으로 구축되었습니다. Feedback 개인정보처리방침

Hanyang University repository

Browse

My Repository

BROWSE