Projected Variable Three-Term Conjugate Gradient Algorithm for Enhancing Generalization Performance in Artificial Neural Network Training

Title
Projected Variable Three-Term Conjugate Gradient Algorithm for Enhancing Generalization Performance in Artificial Neural Network Training
Other Titles
인공신경망 학습에서 일반화 성능 향상을 위한 투영된 가변삼항켤레기울기 알고리즘
Author
김상혁
Alternative Author(s)
Sanghyuk Kim
Advisor(s)
이태희
Issue Date
2023. 8
Publisher
한양대학교
Degree
Master
Abstract
In the field of artificial neural networks, optimization algorithms play a crucial role in minimizing the loss function based on the given training data. Traditional optimization algorithms primarily focus on minimizing the loss function for the training data based on the assumption that well-crafted training data can adequately represent real-world scenarios. However, since machine learning algorithms operate on real-world data, which inherently contains noise and non-stationarity, minimizing the loss function solely for the training data may not guarantee optimal performance on unseen data. This issue becomes particularly prominent when dealing with complex tasks, which often leads to poor generalization performance and overfitting problems. The objective of this study is to enhance the generalization performance of the variable three-term conjugate gradient (VTTCG) algorithm, which has shown promising results in previous studies from a traditional optimization standpoint. To accomplish this goal, two key analyses are conducted. Firstly, the concept of loss landscape is introduced to explore methods for improving network generalization performance. This analysis focuses on understanding the weight update process, which varies based on the dataset, task complexity, and network architecture. Secondly, the insights gained from the first analysis are used to reevaluate the VTTCG algorithm. By extending the loss landscape concept, the factors contributing to the convergence performance and relatively poor generalization performance of the VTTCG algorithm are identified. Building upon these findings, we propose a new algorithm that incorporates a projection method to enhance generalization performance. The proposed algorithm is validated through mathematical examples and benchmarks, yielding the following key findings: the algorithm exhibits robust performance in escaping from sharp local minima, as demonstrated in the two Gaussian functions problem. Additionally, the proposed algorithm is applied to the PTB language modeling task as well as the CIFAR-10/100 image classification tasks, covering a range of difficulties. To validate the algorithm's generalization and convergence performance, we train and evaluate it across multiple network architectures. The experimental results validate the effectiveness of the proposed algorithm, highlighting its potential to improve generalization performance in complex tasks. In conclusion, this study addresses the challenge of generalization performance, contributing significantly to the field of artificial neural network training. The proposed algorithm, based on the VTTCG framework, introduces innovative concepts and techniques that extend the network's ability to generalize beyond training data. With the advancement of modern technology, the enhancement of GPU performance, and the increasing complexity of networks and tasks, the importance of generalization performance is further emphasized. As a result, these research findings are expected to play a significant role in improving generalization performance in this modern context, and hold promise for application in diverse optimization processes and a variety of applications. |인공신경망 학습에서 최적화 알고리즘은 주어진 훈련 데이터를 기반으로 손실 함수를 최소화하는 데 중요한 역할을 한다. 전통적인 최적화 알고리즘은 훈련 데이터가 실제 데이터를 충분히 반영하고 있다는 가정 하에 손실 함수를 최소화하는 데 초점을 맞춘다. 그러나 기계 학습에서의 최적화 알고리즘은 본질적으로 노이즈와 비정상성을 포함하는 실제 데이터에서 작동하므로, 훈련 데이터에 대해서만 손실 함수를 최소화하는 접근법은 보이지 않는 데이터에서 최적의 성능을 보장할 수 없다. 이 문제는 복잡한 작업을 처리할 때, 특히 두드러지며 이로 인해 과적합 문제가 발생해 일반화 성능이 떨어질 수 있다. 본 연구의 목적은 전통적인 최적화 관점에서 유망한 결과를 보여준 가변삼항켤레기울기(VTTCG) 알고리즘의 일반화 성능을 향상시키는 것이다. 이 목표를 달성하기 위해 두 가지 핵심 분석이 수행된다. 첫째, 네트워크의 일반화 성능을 개선하려는 시도로 손실 환경의 개념을 도입한다. 이 분석을 통해 데이터 세트, 작업 복잡성 및 네트워크 아키텍처에 따라 달라지는 가중치 업데이트 프로세스를 이해하는 데 중점을 둔다. 둘째, 첫 번째 분석에서 얻은 통찰력을 바탕으로 VTTCG 알고리즘의 성능을 재분석한다. 손실 환경 개념을 확장하여 VTTCG 알고리즘의 수렴 성능과 상대적으로 낮은 일반화 성능에 기여하는 요인을 파악한다. 이러한 결과를 바탕으로 일반화 성능을 향상시키기 위해 투영 방법을 도입한 새로운 알고리즘을 제안한다. 제안된 알고리즘은 수학 예제와 벤치마크를 통해 검증되며, 다음과 같은 핵심 결과를 도출한다. 이 알고리즘은 두 개의 가우스 함수 문제에서 보여준 바와 같이, 날카로운 국소 최솟값에서 벗어나는 데 뛰어난 성능을 보인다. 또한 제안된 알고리즘은 PTB 언어 모델링 작업과 CIFAR-10/100 이미지 분류 작업에 적용되어 가중치 업데이트가 직면하는 다양한 어려움을 다룬다. 알고리즘의 일반화 및 수렴 성능을 검증하기 위해 여러 네트워크 아키텍처를 훈련하고 평가한다. 실험 결과는 제안된 알고리즘의 효과를 검증하여 복잡한 작업에서 일반화 성능을 향상시킬 수 있는 잠재력을 강조한다. 결론적으로, 본 연구는 일반화 성능 문제를 해결하는 방법으로서 인공신경망 훈련에 새로운 관점을 제시한다. VTTCG 알고리즘을 기반으로 한 제안된 알고리즘은 훈련 데이터를 넘어서 네트워크의 일반화 성능을 향상시키는 새로운 개념과 기술을 도입한다. 현대 기술의 발전과 함께 GPU 성능이 향상되고 네트워크 및 작업의 복잡도가 증가함에 따라 일반화 성능의 중요성이 더욱 부각되고 있다. 따라서 이 연구 결과는 이러한 현대적 흐름에서의 일반화 성능 향상에 중요한 역할을 할 것이며, 최적화 프로세스와 다양한 애플리케이션에 활용될 가치가 있는 것으로 기대된다.
URI
http://hanyang.dcollection.net/common/orgView/200000685413https://repository.hanyang.ac.kr/handle/20.500.11754/186682
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > AUTOMOTIVE ENGINEERING(미래자동차공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE