Core Concepts
본 논문에서는 고빈도 주식 거래 데이터로부터 시장 변동성을 설명하는 공식적 위험 요인을 자동으로 생성하고 검증하는 IRFT(Intraday Risk Factor Transformer) 모델을 제안합니다.
Abstract
IRFT: 고빈도 트레이딩 데이터를 활용한 트랜스포머 기반 위험 요인 자동 탐색 및 검증
본 연구 논문에서는 고빈도 트레이딩(HFT) 데이터에서 시장 변동성을 설명하는 공식적 위험 요인을 자동으로 생성하고 검증하는 새로운 방법론인 IRFT(Intraday Risk Factor Transformer)를 제시합니다. 전통적인 위험 요인 탐색 방법은 수작업으로 변수를 선별하고, 시장 역동성을 따라가지 못하는 경우가 많았습니다. 최근 신경망 기반의 잠재적 위험 요인 추출 모델이 등장했지만, 명시적인 공식적 위험 요인 설계에는 한계를 보였습니다.
본 논문에서는 기호 수학을 언어로 간주하고, 유효한 수학적 표현을 의미 있는 "문장"으로 취급하여 공식적 위험 요인 탐색 작업을 언어 모델링 문제로 재정의합니다. 이를 위해 IRFT 모델은 다음과 같은 방법을 사용합니다.
1. 데이터 생성
IRFT 모델은 기존의 사전 학습된 언어 모델을 사용하지 않고, HFT 데이터셋을 사용하여 처음부터 학습됩니다. 학습 데이터는 (𝑥,𝑦) 쌍으로 구성되며, 여기서 𝑥는 HFT 특징 값이고 𝑦는 해당 값에 대한 미래 변동성(예: 1일 선행 RV)입니다. 모델은 𝑥를 입력받아 𝑦를 예측하는 공식적 위험 요인 표현식 𝐸를 생성하도록 학습됩니다.
2. 토큰화
IRFT 모델은 입력 및 출력으로 사용되는 공식적 위험 요인을 나타내기 위해 토큰화를 사용합니다. 숫자는 부호, 가수, 지수의 세 가지 토큰으로 표현되며, 연산자, 변수, 정수는 단일 토큰으로 표현됩니다. 예를 들어, 𝑓(𝑥) = tan(9.7341𝑥)는 [𝑡𝑎𝑛,𝑚𝑢𝑙, +, 97341, 𝐸−3,𝑥]로 인코딩됩니다.
3. 모델 구조
IRFT 모델은 임베더와 트랜스포머로 구성됩니다. 임베더는 고차원 트랜잭션 데이터를 처리하기 위해 입력 차원을 줄이는 역할을 합니다. 트랜스포머는 인코더와 디코더로 구성되며, 인코더는 HFT 주식 데이터의 특징을 효과적으로 포착하고, 디코더는 입력된 특징을 기반으로 공식적 위험 요인 표현식을 생성합니다.
4. 학습 및 추론
IRFT 모델은 교차 엔트로피 손실을 최소화하는 방식으로 학습됩니다. 추론 단계에서는 BFGS 알고리즘을 사용하여 예측된 상수 값을 미세 조정하고, 다양한 척도의 입력 샘플을 처리하기 위해 스케일링 프로세스를 도입합니다. 또한, 대규모 데이터셋을 효율적으로 처리하기 위해 배깅 및 디코딩 기술을 사용합니다.