298 0

Automated stock trading using transformer and reinforcement learning

Title
Automated stock trading using transformer and reinforcement learning
Other Titles
트랜스포머와 강화학습을 이용한 자동 주식 트레이딩
Author
이남영
Alternative Author(s)
Lee, Nam Yeong
Advisor(s)
문준
Issue Date
2023. 8
Publisher
한양대학교
Degree
Master
Abstract
Recently, with the growing interest in trading in financial stock markets, several algorithms have been proposed to automatically allocate stocks and/or predict future stock values using machine learning methods, such as reinforcement learning (RL), LSTM, and transformers. Among them, RL has been used to allocate portfolio assets with a series of optimal actions. The most important thing in trading in stocks is the consideration of past stock price data. However, existing RL algorithms used to stock markets do not include previous stock data when taking optimal actions, as RL is formulated based on the Markov property. To resolve this problem, we propose Transformer Actor-Critic (TAC) using GPT to train the model with the relation of previous MDP elements using an attention mechanism. Additionally, a critic method is applied to improve the result by training the parameters based on the evaluation of an action. For an effective training method, we train TAC applying an offline RL algorithm through suboptimal trajectories. To solve the problem of overestimating the value of actions and reduce training time, we train TAC through a regularization method with an additional behavior cloning term. The experimental performances using several stock market data show that TAC performs better than other recent papers and RL in terms of the Sharpe ratio and portfolio value.|최근에 금융 주식 시장 투자에 대한 관심이 증가하면서 강화학습, LSTM, 트랜스포머 등의 알고리즘을 이용한 머신러닝 기법으로 주식을 자동으로 거래하거나 다음 주식 가격을 예측하는 알고리즘들이 개발되고 있다. 그중에 강화학습은 최적의 일련의 액션을 통해 포트폴리오 자산을 관리하는 데에 적용되고 있다. 주식을 투자하는데 가장 중요한 요소는 과거 주식 가격 데이터 활용이다. 그러나, 기존의 주식 도메인에 적용된 강화학습 알고리즘들은 마르코프 성질을 기반으로 형성되었기 때문에 최적의 액션을 취할 때 과거 주식 데이터를 고려하지 않는다. 이러한 한계를 해결하기 위해 우리는 과거 MDP 요소들을 attention 메커니즘을 통해 모델을 학습할 수 있는 decision transformer를 이용하여 Transformer-Actor-Crtic (TAC)를 제안한다. 추가적으로, critic 네트워크를 추가하고 액션을 평가하여 파라미터들을 업데이트하므로써 성능을 향상시킨다. 효율적인 학습 방법으로 우리는 강화학습 모델을 suboptimal 트레젝토리들을 통해 오프라인으로 모델을 학습시킨다. 액션의 가치를 과추정하는 것을 방지하기 위해 우리는 TAC를 behavior cloning term이 추가된 regularization 방법으로 학습시킨다. 다양한 주식 시장 데이터셋들을 사용하여 실험했을 때 TAC가 다른 최신 방법들보다 샤프지수와 수익의 결과가 더 좋다.
URI
http://hanyang.dcollection.net/common/orgView/200000684014https://repository.hanyang.ac.kr/handle/20.500.11754/187245
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > ARTIFICIAL INTELLIGENCE(인공지능학과) > Theses(Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE