Khái niệm cốt lõi
본 논문에서는 시시각각 변화하는 금융 시장 환경에 적응력이 뛰어난 새로운 비정상 밴딧 알고리즘인 ADTS와 이를 활용한 밴딧 네트워크를 제시하고, 실제 주식 데이터를 이용하여 그 성능을 검증했습니다.
Tóm tắt
밴딧 네트워크를 활용한 포트폴리오 최적화 결과 개선: 실제 주식 데이터 기반 실험적 평가
본 연구는 강화학습 분야의 핵심 문제 중 하나인 다중 슬롯 머신 문제(Multi-Armed Bandit, MAB)를 금융 포트폴리오 최적화 문제에 적용하여, 실제 주식 시장과 같이 변동성이 큰 환경에서도 효과적으로 작동하는 새로운 알고리즘을 제시하고 있습니다.
1. 비정상 환경과 밴딧 알고리즘
기존의 밴딧 알고리즘은 보상 분포가 고정되어 있다는 가정 하에 개발되었지만, 실제 금융 시장은 주가 변동, 투자자 심리 변화 등으로 인해 보상 분포가 지속적으로 변화하는 비정상 환경입니다. 이러한 환경에서는 기존 알고리즘의 성능이 저하될 수 있습니다.
2. ADTS (Adaptive Discounted Thompson Sampling) 알고리즘
본 논문에서는 이러한 한계를 극복하기 위해 새로운 밴딧 알고리즘인 ADTS를 제안합니다. ADTS는 과거 데이터의 영향을 점진적으로 감소시키는 할인 계수와 최근 데이터를 집중적으로 학습하는 슬라이딩 윈도우 메커니즘을 결합하여 변화하는 보상 분포에 빠르게 적응합니다.
3. 밴딧 네트워크
ADTS를 기반으로 여러 개의 밴딧 알고리즘을 계층적으로 연결한 밴딧 네트워크를 설계하여 포트폴리오 최적화 문제를 해결합니다.
비정상 밴딧 + CADTS 네트워크: 첫 번째 계층에서는 ADTS 등의 비정상 밴딧 알고리즘을 사용하여 우수한 성과를 보이는 주식을 선별하고, 두 번째 계층에서는 CADTS (Combinatorial Adaptive Discounted Thompson Sampling) 알고리즘을 사용하여 선택된 주식의 비중을 최적화합니다.
2계층 ADTS 네트워크: 전체 주식을 여러 그룹으로 나누어 각 그룹에 대해 ADTS를 적용하여 우수 주식을 선별한 후, 다시 한번 ADTS를 적용하여 최종 주식 비중을 결정합니다.
4. 실험 및 결과
2020년 4월부터 2024년 7월까지의 S&P 500 지수의 44개 주식 데이터를 사용하여 제안된 알고리즘과 네트워크 성능을 검증했습니다.
주식 선정 실험: ADTS는 다른 밴딧 알고리즘보다 누적 손실이 적고, 수익률, 샤프 지수, 소티노 비율 등의 재무 지표에서 우수한 성능을 보였습니다.
포트폴리오 최적화 실험: 2계층 ADTS 네트워크 (n=4)는 가장 낮은 누적 손실과 높은 수익률을 기록했으며, 다른 네트워크 구성 또한 CAPM, 동일 가중치, 리스크 패리티 등의 기존 포트폴리오 모델보다 우수한 성능을 나타냈습니다.
포트폴리오 선택 안정성 실험: 2계층 ADTS 네트워크 (n=15)는 최상위 수익률 주식을 제거하는 실험에서도 안정적인 수익률과 샤프 지수를 유지하여 높은 안정성을 보였습니다.