132 0

연속 학습을 위한 Energy-based Model의 Sharpness 기반 이해

Title
연속 학습을 위한 Energy-based Model의 Sharpness 기반 이해
Other Titles
Sharpness-based Understanding of Energy-basedModels for Continual Learning
Author
김민준
Alternative Author(s)
Min-Jun Kim
Advisor(s)
김은솔
Issue Date
2024. 2
Publisher
한양대학교 대학원
Degree
Master
Abstract
이전 태스크(task)에서 학습한 정보를 보존하면서 여러 태스크를 차례로 학 습하는 것을 목표로 하는 연속 학습은 기계 학습의 근본적인 문제 중 하나이 다. 연속 학습은 이전 태스크에서 학습한 정보를 보존하면서 새로운 태스크의 정보를 학습하여야 하는데, 모델의 일반화 성능은 이에 중요한 역할을 한다. 하지만 최근 연구에서 확률적 경사 하강법(stochastic gradient descent) 기반 의 기계 학습 알고리즘들은 손실 함수 상에서 최솟값 근처의 기울기가 가파른 특성(sharp minima)을 가진다는 점이 밝혀졌다. 이 특성은 모델의 일반화 성 능에 악영향을 미친다. 이러한 맥락에서 정보 기하학의 관점으로 손실 함수의 sharpness를 정확히 측정하기 위한 방법론들이 제기되었다. 특히, 기존의 방법 론이 reparameterization과 scaling에 취약하다는 것이 밝혀져 이를 해결하기 위한 시도가 이어져 왔다. 본 논문에서는 기존에 연속 학습 분야에서 제시되어 뛰어난 성능을 보인 Elastic Weight Consolidation과 에너지 기반 모델을 정보 기하학적인 관점에 서 분석한다. 구체적으로, 앞의 2가지 알고리즘의 성공적인 이유로 손실 함수 의 sharpness가 중요한 특성임을 보인다. 이를 바탕으로 sharpness에 관련된 항을 손실 함수에 추가하는 새로운 알고리즘을 제안한다. CIFAR10과 MNIST 데이터셋을 이용한 실험으로 본 논문에서 제시하는 방법론의 성능을 입증하였 다.|Continual learning, the capability to learn successive tasks without forgetting previous ones, has been considered one of the fundamental problems in machine learning. Continual learning focuses on retaining knowledge from previous tasks while learning new ones, and the algorithm’s generalization ability is crucial for this. However, recent research has indicated that machine learning algorithms based on stochastic gradient descent methods tend to converge to sharp minima, which negatively impacts the model’s generalization ability. In this context, methodologies have been proposed from the perspective of information geometry to precisely measure the sharpness of the loss function. In particular, it has been revealed that existing methodologies are vulnerable to reparameterization and scaling, leading to ongoing efforts to address and resolve these issues. From the information geometric perspective, we analyze the characteristics of existing algorithms, such as Elastic Weight Consolidation and Energy-based Models, that have shown good performance in continual learning. In particular, we show that the two aforementioned algorithms' successful completions are largely dependent on the loss function's sharpness. Building upon this observation, a new algorithm is proposed in this paper, which incorporates terms related to sharpness into the loss function. Experimental validation using the CIFAR10 and MNIST datasets confirms the effectiveness of the proposed methodology presented in this paper
URI
http://hanyang.dcollection.net/common/orgView/200000726489https://repository.hanyang.ac.kr/handle/20.500.11754/189293
Appears in Collections:
ETC[S] > ETC
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE